NEWS お知らせ

LLMの信頼性を向上。新たなベンチマーク「FACTS Grounding」

大規模言語モデル（LLM）の登場により、情報アクセスの方法が大きく変化しています。しかし、その一方で、LLMが生成する情報の正確性や信頼性にはまだ課題が残っています。そこで今回、DeepMindが発表した新たなベンチマーク「FACTS Grounding」が注目されています。この記事では、このベンチマークの特徴や期待される効果についてご紹介します。

FACTS Groundingとは何か？

FACTS Groundingは、LLMの応答がどれだけ事実に基づいているかを評価するための新しい基準です。このベンチマークでは、以下の2つの要素に基づきLLMの性能が評価されます。

・事実性：応答が提供されたソース資料に完全に基づいていること。

・詳細性：ユーザーのリクエストを十分に満たすための具体的かつ詳細な回答であること。

特に複雑なリクエストにおいても、誤情報（いわゆる「幻覚」）を防ぎ、信頼性の高い応答を生成する能力を測ることが目的です。

データセットと評価の仕組み

FACTS Groundingの評価には、1,719件の例題が含まれる専用のデータセットが使用されます。これらの例題は、与えられたソース資料を基に長文の回答を求める設計となっており、様々な業界やタスクに対応しています。

・対象分野：金融、技術、小売、医療、法務など

・タスクの種類：要約、Q&A生成、リライトなど

応答は、自動評価モデル（例えば、GPT-4oやClaude 3.5 Sonnet）を使って、複数の段階で審査されます。適格性と事実性の両面で基準を満たしているかが確認され、最終的なスコアが算出されます。

リーダーボードで進化を促進

FACTS Groundingの導入に伴い、Kaggle上で「FACTSリーダーボード」が公開されました。このリーダーボードでは、主要なLLMが評価され、その結果がランキング形式で表示されます。これにより、LLM開発者や研究者が競い合い、より信頼性の高いモデルの開発が促進されることが期待されています。

期待される効果と今後の展望

FACTS Groundingは、LLMの信頼性向上に向けた重要な一歩といえます。これにより、以下のような効果が期待されています。

・業務効率の向上：正確な情報に基づいた応答が得られるため、業務プロセスが簡略化されます。

・適用範囲の拡大：医療や法務など高精度が求められる分野でも、LLMの活用が進む可能性があります。

・AI技術の信頼性向上：誤情報が減少することで、AIへの信頼性が向上し、導入障壁が低くなります。

FACTS Groundingは今後も進化を続け、業界全体の基準としてさらに洗練されていくでしょう。

最後に

生成AIの活用には、正確性や信頼性を確保することが欠かせません。我々「株式会社SpinFlow」では、最新の生成AIツールをお客様の業務に最適化するサポートを提供しております。LLMの導入や活用方法に関するご提案をご希望の方は、ぜひお気軽にご相談くださいませ。

【参考記事】

https://deepmind.google/discover/blog/facts-grounding-a-new-benchmark-for-evaluating-the-factuality-of-large-language-models/

CONTACT

お気軽にお問合せください。