サムスン電子、AI業務生産性測定指標「TRUEBench」公開

サムスン電子が独自開発したAI業務生産性ベンチマーク「TRUEBench」を公開した。

TRUEBenchはサムスン電子・DX部門の先行研究開発組織であるサムスンリサーチが社内生成AIモデル適用経験を基に開発したベンチマークで、AIモデルの業務生産性性能を評価する。

サムスン電子は多くの企業が業務全般にAIを導入しているが、既存のベンチマークではAIモデルの業務生産性性能を正確に測定しにくいという点に注目した。

実際、市中に公開されているほとんどのAIベンチマークは英語を中心に、連続対話ではなく、一度あるいは制限された回数で対話を評価している。

今回サムスン電子が公開したTRUEBenchは、従来のベンチマークと差別化し、業務生産性に対する集中評価を進めるのが特徴だ。実際の評価項目は10つのカテゴリー、46つの業務、2485つの細分化された項目で構成されている。

評価項目は企業でよく使うコンテンツ生成、データ分析、文書要約および翻訳、連続対話など実際のオフィス業務で活用されるチェックリストを基盤に完成された。

TRUEBenchは計2485つの評価基準で、ユーザーの短い要請から最大2万字の長い文書要約まで、実際の業務状況を幅広く評価することになる。

評価結果も従来のベンチマークと差別化した。

ユーザーは一度に最大5つのモデルを選択して比較することができ、多様なAIモデルの性能を一目で把握することができる。応答結果に対する平均長さなども公開し、性能と効率性指標を同時に比較することができる。

全体評価点数だけでなく、10つのカテゴリーに対する細部項目別点数も公開し、従来のベンチマークより細かい評価結果を確認することができる。

TRUEBenchは英語·韓国語·日本語·中国語·スペイン語など計12ヶ国語を支援する。

特に、グローバルビジネス環境を考慮し、英語や韓国語など、さまざまな言語が混合された交差言語の翻訳機能の評価も可能だ。

サムスン電子はグローバルオープンソースプラットフォームのHugging FaceにTRUEBenchのデータサンプルとAIモデルの評価結果が表示されたLeaderboardを公開した。

亜洲日報の記事等を無断で複製、公衆送信、翻案、配布することは禁じられています。

注目記事