ブルームバーグGPTのご紹介 -金融機関向けにゼロから構築された500億パラメーターを持つ ブルームバーグの大規模言語モデル

2023年3月30日
ブルームバーグ・エル・ピー

ブルームバーグGPTは、金融分野の自然言語処理(NLP)タスクにおいて同規模の各種オープンモデルのパフォーマンスを大幅に上回り、一般的な大規模言語モデル(LLM)ベンチマークとの比較でも同等以上の性能を発揮

【ニューヨーク – 2023年3月20日】ブルームバーグは本日、新しい大規模生成系人工知能(AI)モデル「ブルームバーグGPT」の開発について詳述したリサーチペーパーを発表しました。この大規模言語モデル(LLM)は、幅広い金融データに特化してトレーニングされており、金融業界における多様な自然言語処理(NLP)タスクに対応します。

LLMに基づくAIの最近の進歩により、すでに多くの分野で新たにこれらテクノロジーの目覚ましい応用が実証されています。しかし、金融業界では複雑で独特な用語が多いため、金融業界に特化したモデルが必要とされています。ブルームバーグGPTは、この新しいテクノロジーを金融業界で進展させ、応用するための第一歩となるものです。このモデルは、既存の金融NLPタスク(センチメント分析、名称のあるエンティティの認識、ニュース分類、質問応答など)の向上においてブルームバーグを支援します。さらにブルームバーグGPTは、ブルームバーグ ターミナルの膨大なデータを統合する新たな機会を提供し、お客さまにより良いサービスを提供しながら、金融業界でAIの潜在能力を最大限に引き出します。

ブルームバーグは過去10年以上にわたり、AI、機械学習、NLPの金融分野での応用における草分け的存在となっています。今日では、ブルームバーグは金融分野に強みを持つ新しい言語モデルを活用することで、非常に大規模で多様なNLPタスクに対応しています。ブルームバーグの研究者たちは、金融データと汎用データの両方を組み合わせるアプローチを先陣を切って開発しました。このアプローチの目的とは、金融LLMベンチマークで業界最高水準の結果を達成しつつ、汎用LLMベンチマークでも競争力を維持できるようにモデルをトレーニングすることです。

このマイルストーンを達成するために、ブルームバーグのMLプロダクト&リサーチグループは、社内のAIエンジニアリングチームと協力して、既存のデータ作成・収集・キュレーションのリソースを活用し、過去最大級のドメイン特化型データセットを構築しました。ブルームバーグのデータアナリストたちは、金融データ提供企業として、金融言語資料を40年以上にわたり収集、管理してきました。この膨大な金融データのアーカイブを利用し、英語の金融文書で構成される包括的な3630億トークンのデータセットを作成しました。

このデータに3450億トークンの公開データセットを加え、7000億トークンを超える大規模なトレーニングコーパスを構築しました。さらに、トレーニングコーパスの一部を用いて、500億パラメーターのデコーダのみの因果関係言語モデルをトレーニングしました。得られたモデルは、既存の金融特化型NLPベンチマーク、ブルームバーグ社内の各種ベンチマーク、および一般的なベンチマークの幅広いカテゴリーの汎用NLPタスク(BIG-bench Hard、知識評価、読解力、言語タスクなど)で検証されました。注目すべきは、ブルームバーグGPTモデルのパフォーマンスが、金融タスクにおいて同規模の既存オープンモデルを大きく上回り、一般的なNLPベンチマークと比べても同等以上の性能を発揮していることです。

表1:2つの主なNLPタスクのカテゴリー(金融特化型タスクおよび汎用)におけるブルームバーグGPTのパフォーマンス

表1:2つの主なNLPタスクのカテゴリー(金融特化型タスクおよび汎用)におけるブルームバーグGPTのパフォーマンス

ブルームバーグの最高テクノロジー責任者(CTO)、Shawn Edwardsは、「生成系LLMが魅力的である理由は、 few-shot学習、テキスト生成、会話システムなど多岐にわたります。金融分野に特化した初のLLMを開発したことに、大きな価値を感じています」と述べ、「ブルームバーグGPTは、あらゆる新しいタイプの応用を可能にすると同時に、それぞれの場合にカスタムモデルをはるかに上回るパフォーマンスを即座に実現し、市場投入までの時間を短縮します」と説明しています。

ブルームバーグのMLプロダクト&リサーチチームのヘッド、Gideon Mannは次のように説明しています。「機械学習やNLPモデルの品質は、投入するデータによって決まります。ブルームバーグが40年以上にわたってキュレーションしてきた数々の金融に関する資料のおかげで、金融分野での使用例に最適なLLMにトレーニングできる、大規模かつクリーンなドメイン特化型データセットを細心の注意を払って作成することに成功しました。ブルームバーグGPTが、既存のNLPワークフローを向上させることを非常に楽しみにしています。また、このモデルを実用してお客さまに喜んでいただくための新しい方法についても構想を練っています」

ブルームバーグGPTの開発に関する詳細は、arXiv: https://arxiv.org/abs/2303.17564で資料をご覧ください。

ブルームバーグについて

ブルームバーグは、世界のビジネス・金融情報のリーディング・カンパニーとして、市場に透明性、効率性、公正性をもたらす、信頼性の高いデータ、ニュース、インサイトを提供しています。当社は、お客様がより多くの情報に基づいた意思決定を行い、より良いコラボレーションを促進することを可能にする信頼性の高いテクノロジー・ソリューションを通じて、世界の金融エコシステムにおいて影響力のあるコミュニティをつなぐ支援をしています。

詳細については、こちらをご覧いただくか、デモをリクエストしてください。

*本プレスリリースはBloombergが2023年3月30日(現地時間)に英語で発表を行ったプレスリリースを日本語に翻訳・再編集したものです。オリジナルのプレスリリースの正式言語は英語であり、この内容および解釈については下記の英語版が優先となります。英文オリジナルにつきましてはこちらのサイトをご参照ください。

デモ申し込み