【金融LLMの真価を問う】EDINET-Bench:日本語有価証券報告書データで金融タスク性能を徹底評価!Sakana AIが開発

2025-06-09
【金融LLMの真価を問う】EDINET-Bench:日本語有価証券報告書データで金融タスク性能を徹底評価!Sakana AIが開発
窓の杜

Sakana AI株式会社は、金融業界における大規模言語モデル(LLM)の性能評価を加速させるため、日本語金融ベンチマーク「EDINET-Bench」を開発し、公開しました。本ベンチマークは、有価証券報告書という重要な金融情報を活用し、会計不正検知をはじめとする高度な金融タスクにおけるLLMの性能を客観的に測定することを目的としています。 なぜEDINET-Benchが必要なのか? 近年、金融業界においてもLLMの活用が急速に進んでいますが、その性能を正確に評価するための標準的なベンチマークが ...もっと読む

おすすめ
おすすめ