Read the English version published on November 17, 2020.
データサイエンスのツールやテクニックを武器に持つ現代の予測のプロたちは、過去の予測者やいわゆる「群衆の叡智」に比較して大きな強みを持っていますが、それでもなお、群衆の叡智が時として正しいことを示す研究結果もあります。激動の時代においては、予測力がこれまで以上に重要となりま
す。
その予測の優劣を評価する方法も重要です。ブルームバーグのクオンツ・リサーチチームは、いろいろな角度から予測者をスコアリングする新たな手法を開発しました。予測の正確性のみならず、タイミングや方向性、大胆さなども考慮して予測者を評価するのです。その分析結果を見れば、長期にわたり一貫して正しい方向性の予測を行う予測者を特定することができ、予測の優劣に関するより精度の高いコンセンサスの形成にも役立ちます。
予測の品質を評価するためには、まずクリーンなデータが必要です。しかし困ったことに、どんなデータセットにもエッジケース(外れ値など)と単純に間違ったデータポイント(タイプミスや単位の間違いなど)の両方が存在します。ヒトの力で誤った値にフラッグを立てることもある程度は可能ですが、データが膨大になればすべてを正確に捉えることは不可能です。そこで、自動的にエラー値にフラッグを立てる正確な統計手法が不可欠となります。
あたかもエラー値のように見えるデータポイントのうちの幾つかは実際には外れ値であることがあり、データセットの秩序を乱しはしますが決して間違いではありません。また、市場の構造的枠組みが変化し、データが大幅にシフトすることも考えられます。この場合でも、得られたデータポイントは正しいものであり、従来の枠組みにマッチしないからといってエラー値として処理してしまうことはできません。これが実際に起きたのが2020年3月の新型コロナウイルス感染拡大時で、数多くのアナリストがさまざまな業界の収益予測を引き下げました。
しかし一方で、データが本当に間違っていることもあります。多く見られる間違いは2種類あり、1つは符号の間違い(+/-)、もう1つは単位の間違い(億、兆など)です。解決方法はありますが、データセットに手を入れることにはリスクが伴います。キャリブレーション(較正)は面倒な作業で、たとえモデルが正確にキャリブレーションされたとしても今度はオーバーフィット(過剰適合)が起きる可能性があり、分析がさらに複雑になる上、誤った正の結果あるいは誤った負の結果が導き出される恐れがあります。
典型的な機械学習においては、訓練のためにラベル付データ(グラウンドトゥルースとも呼ばれます)が必要です。そのトゥルースを効率性と一貫性の両方が確保された形で収集する手法を見つけるのは大変困難です。この点についてブルームバーグのArun Vermaは次のように述べています。「通常、私たちが使用するデータに含まれるエラー値の数は0.1%以下です。これはグラウンドトゥルースを取得する際の選別を非常に厳密に行う必要があることを意味します。すなわち高い確率でエラーであるデータポイントのラベルと、モデルの分類境界を高い精度で微調整するために必要なエッジデータのラベルを見分ける必要があるのです。また、トゥルース自体にも曖昧さが残っています。例えば、専門家によってエラーの判断が異なる可能性があります。従って私たちは常に『これは本当にエラー値か?もしそうならどんな種類のエラーなのか?』と問い続ける必要があります。機械学習のアルゴリズムは、これらすべての要素を考慮した上で確実に動作するものでなければなりません。オーバーフィッティングに陥らないようにする一方で、解釈可能で高い透明性を備える必要があります」
ブルームバーグのプロジェクトでは、まず単純なベースラインモデルを使用して暫定的なエラーフラッグを立てます。次にフラッグが立ったインスタンスと、ベースラインアルゴリズムのエラー分類境界付近の幾つかのフラッグが立っていないインスタンスをトゥルースとして選択します。トゥルースが選択されたら、モデルのパフォーマンスを最適化するために適合率と再現率を使ってモデルを微調整した上で、エラーを修正した最終フラッグを立てます。
次に、エラーフラッグが立たなかったすべてのアナリスト予測を、実際に起きたことと比較してスコアリングします。ここでブルームバーグのプロジェクトはユニークな手法を取り入れます。予測において最も重要な属性は必ずしも正確性だけではなく、タイミングや方向性、一貫性、独立性なども実は非常に重要なのです。特に方向性は金融市場においては大変興味深い属性で、例えばあるアナリストの予測の方向性が一貫して正しければ、さまざまな市場環境における収益性向上に大きく貢献するでしょう。また、逆張りポジションを常に成功させて周囲から抜きん出た存在となっているアナリストがいれば、注目と賞賛に値するでしょう。長期にわたって数多くの予測の価値を判定するためには、基本的な正確性だけではなく、こうした考え方を取り入れることが大変重要です。
次に、こうした予測と予測者のデータを集約して特定の期間(例えば2020年第3四半期)に最も優れていた予測者、さらにはより広い尺度で最も優れた予測者を決定します。より精度の高いコンセンサスの形成という点に立ち戻れば、明確な原則を適用してスコアリング手法の統一性を確保できれば、モデルは長期にわたり一貫して優れた予測者を上位に位置付けるのみならず、特定の金融商品や期間、セクター、地域ごとに優れた予測者を特定することもできます。例えば為替やコモディティに強い予測者、あるいは欧州やアジアのイベントに強い予測者などです。すべての予測を正規化して正規分布曲線状にプロットすることにより、分析結果は予測者のパフォーマンスを明確に示してくれます。
データ量が膨大となり分析テクニックも多岐にわたる現在、水晶玉による神秘的な予測では対応できなくなりました。アメリカの俳優であり社会評論家でもあったウィル・ロジャースはかつて「良い判断は経験から生まれる。その経験の多くは悪い判断から生まれる」と言いました。過去の予測をうまく分析することができれば、数多くの予測の中から優れたものを迅速に選び出すことができるでしょう。
ブルームバーグの予測評価手法の詳細についてはこちらからご連絡ください。