Google DeepMindが大規模言語モデル(LLM)の「事実性」と「根拠」を評価する新たなベンチマークを公開した。AAI開発コミュニティーにツールの活用と評価を呼び掛けている。
このベンチマークでは多様な入力を保証するため、金融、テクノロジー、小売、医療、法律といった幅広い分野を対象に多様な文書が活用されている。文書の長さは最大3万2000トークン(約2万語)におよび、ユーザーからのリクエストには要約、質疑応答、リライトタスクなどが含まれている。一方で創造性や数学などの複雑な推論を必要とする例は除外されている。
FACTSの評価プロセスには「Gemini 1.5 Pro」「GPT-4o」「Claude 3.5 Sonnet」と3つのLLMが使われており、特定モデルへの潜在的なバイアスを緩和するために審査に複数のLLMを組み合わせてモデルの応答を評価する仕組みだ。 応答は2段階で評価され、ユーザーの要求に適切に応じているかどうかをまず確認した後、回答が提供された文書に完全に基づいているかがチェックされる。最終的に複数の審査員モデルにより応答の適格性や精度が個別に評価され、その結果を集計して成否が判定される。最終スコアは全審査モデルのスコアの平均値で示す。Google DeepMindでは引き続き事実性とグラウンディングに関する標準の向上を目指すとしており、AIコミュニティーに対してFACTSを活用した評価や研究への参加を呼びかけている。
日本 最新ニュース, 日本 見出し
Similar News:他のニュース ソースから収集した、これに似たニュース記事を読むこともできます。
Google Cloud Partner Top Engineer 2025 Fellow 受賞新卒3年以内の Google Cloud パートナー企業のエンジニアで最も評価が高い「Google Cloud Partner Top Engineer 2025 Fellow」を受賞しました。この受賞は、Google Cloud の普及やソリューション開発への貢献度が高く評価された結果です。
続きを読む »
Google Cloud、企業向けAIプラットフォーム「Google Agentspace」を発表Google Cloudは企業向けAIプラットフォーム「Google Agentspace」を発表しました。Google Agentspaceは、Google検索の力をベースに、社内のデータソースにアクセスできる検索アシスタント、独自のAIエージェント、AIノートブック「NotebookLM」を統合したサービスです。
続きを読む »
『ライオン・キング:ムファサ』が前作を超えてより感情移入できる作品に仕上がったワケ(2024年12月21日)|BIGLOBEニュース『ライオン・キング:ムファサ』が公開された。王の血筋を引くタカ(若き日のスカー)と、後に『ライオン・キング』の主人公シンバの父となるムファサの若き日の物語である。「子ども」と…|BIGLOBEニュース
続きを読む »
ストーリーズ・オン・ヘルスケア、医療・ヘルスケアの未来を拓くPRエージェンシーとしての役割と課題ストーリーズ・オン・ヘルスケアは、医療やヘルスケアの未来を支えるPRエージェンシーとして、高齢化に伴うさまざまな課題に対応しています。コミュニケーションを通じて医療と関わる「人」と「コト」と「モノ」をつなぎ、社会全体を巻き込んで課題解決に向けた活動を推進しています。
続きを読む »
いとうせいこう&ライムスター宇多丸が「能」と「ラップ」と「日本語」を語り尽くす一夜限りの特別トークイベント、神楽坂・赤城神社にて12月20日に開催決定!いとうせいこう&ライムスター宇多丸が「能」と「ラップ」と「日本語」を語り尽くす一夜限りの特別トークイベント、神楽坂・赤城神社にて12月20日に開催決定! 株式会社新潮社のプレスリリース
続きを読む »
Google Cloud Partner Top Engineer 2025 Fellow 受賞、新卒エンジニアの成長と挑戦Google Cloud のパートナー企業で、新卒 3 年以内のエンジニアが、Google Cloud Partner Top Engineer 2025 Fellow を受賞。高評価を得た理由や受賞後の決意表明を紹介します。
続きを読む »