機械学習を用いた温室効果ガス排出量の推定値算出

Read the English version published on April 08, 2022.

米証券取引委員会(SEC)は3月に、米上場企業に温室効果ガス(GHG)排出量の開示を義務づける新しい規則を提案しました。各企業の排出量や排出量削減目標に対する進捗具合について透明度が大幅に向上することで、サステナブルファイナンスは近い将来恩恵を受ける可能性があります。

ところが、先進国の大手多国籍企業はこうした情報の一部を開示する努力をしているにもかかわらず、現時点では利用できる排出量に関する企業報告値は不十分で、国や業種によって大幅な差があります。2020年度のデータ公開時点で、ブルームバーグがESGデータを収集している1万1800社のうちスコープ1または2の排出量を報告している企業は4000社弱で、世界の総企業数のごく一部に過ぎないことがわかりました。

推定値の算出は金融市場参加者がこのギャップを埋めるのに役立ちますが、モデル作成方法が推定値の質を左右します。投資会社は自社の投資やポートフォリオがサステナビリティの目標・規制要件にどのように合致しているかを評価するために、GHG排出量データを必要としています。各企業のGHG排出量を過小または過大評価した場合、ポートフォリオの重大な調整が必要になったり、排出量削減目標が達成できなくなったりする可能性が生じます。

推定値を算出する比較的単純なアプローチとして、各業界の平均値を取り、従業員数、資産、売上高などの要素で調整する方法があります。ただし、これではセクター分類や規模以外の企業の特徴を考慮することはできません。データ項目を増やしてこれを土台に他のアプローチを構築し推定値算出パフォーマンスを向上させることは可能ですが、複雑な問題を比較的単純に扱うことに変わりはありません。

ブルームバーグでは、この問題を機械学習を用いて解決しています。機械学習ではデータセットに含まれる大量の変数間の複雑な関係を特定し、重要なデータが欠損しているシナリオに対応することができます。本稿では、機械学習法を排出量推定モデルに適用する利点をご説明します。

非線形関係の処理

なぜ機械学習のアプローチが優れているのかを理解するためには、まずGHG排出量のモデル化に隠された落とし穴をいくつか議論する必要があります。まず、モデルで使用する項目(売上高、従業員数など)と排出量の間には、必ずしも線形関係があるとは限らないということです。同様に、単一関係だけでなく異なる項目間の相関関係が企業のGHG排出量にどのように影響するかをモデル化することも重要になります。ブルームバーグが使用している「勾配ブースティング決定木モデル」は、項目または項目グループとGHG排出量の間の個々の非線形関係および相関非線形関係の両方を学習することが可能で、確実な推定値を提供します。

会計・財務ソフトメーカー、インテュイット(Intuit Inc.)のような企業を例に挙げてみましょう。ブルームバーグのデータによると、2015年から2020年の間に同社の収益は83%、資産は115%、従業員数は38%増加しました。これらの項目に線形モデルを適用すると、排出量も同様の規模で増加するという予測になるはずです。しかし、実際にはこうした項目と排出量の間にはかい離があります。インテュイットの報告によれば、エネルギー消費量削減(2017年から2020年で60%減少)および再生可能エネルギー源からの電力購入への移行(2018年から2020年で購入電力の76%から100%に増加)により、スコープ1および2合計の排出量は2015年から2020年で82%減少しました。ブルームバーグモデルはこうしたデータ項目にアクセスし、約800点すべてを処理します。こうした項目を組み合わせて相関関係を把握することで、排出量を報告していない企業についてより精度の高い推定値を作成することができます。対照的に、線形モデルでは例で挙げたような矛盾した関係を理解するのは困難と言えます。

欠損データの処理

排出量推定のもう1つの落とし穴として考えられるのは、取得できる重要データの量に影響を受けやすいことです。例えば、電力消費量はスコープ2排出量と強い相関性があります。しかし、排出量を報告する企業は電力消費量も報告するという傾向も強く、反対に排出量を報告しない企業は電力消費量も報告しないことが一般的です。つまり、モデルは排出量を報告している企業の排出量予測には非常に有効ですが、非報告企業に対しては予測力を失うという罠に陥りやすいのです。機械学習モデルを使用すると、この問題を回避し、予測関係を検出することが可能になります。そのため、確実に推定を行うには、GHG排出量のように欠損データを考慮することが欠かせないデータ処理に適しています。

欠損データを適切に処理することで、報告するデータの種類が限られている企業の排出量推定につながり、幅広いカバレッジを提供することができます。

推定値の信頼性と分布

ほとんどのGHG排出推定ツールは数値を1つだけ算出したらその数値を各企業および各年について表示するだけで、裏付けとなるデータポイントは提示されません。対照的に、ブルームバーグのような機械学習モデルは異なる水準の確実性と信頼スコアを用いて推定値を算出することができます。信頼スコアは算出モデルが任意の企業についてどの程度正確に予測できるかを示すもので、1は信頼性が最も低く、10は信頼性が最も高いことを意味します。ここで、例を挙げて確実性水準の異なる推定値を具体的にご説明します。ある企業のスコープ1排出量の75パーセンタイル推定値が1万メートルトンのCO2換算に相当する場合、モデルは75%の確実性で当該企業のスコープ1排出量がこの数値を下回ると算出していることを意味します。もちろん、この2つの概念は連動しており、信頼性スコアが高いほど、異なる確実性水準の推定値の分布の幅が小さくなります。

このような分布を利用できることには、多くのメリットがあります。まず、EUの環境政策などの基本原則である「予防原則」を適用できることが挙げられます。予防原則とは、確実でない場合は慎重を期して予防的に対策をとることを指し、推定排出量データの例では、金融市場参加者は推定値の確実性を75%または95%で選択することができるので、仮に企業が翌日から報告を始めた場合、実際の報告値は推定値を下回る可能性が高くなります。これは、非報告企業に不利に働くだけでなく、排出量の報告を開始する動機付けにもなります。

次に、より多くの企業がTCFD、SFDR、その他各国の要件に従い、または自主的にでさえGHG排出量を報告する流れになりつつあるため、ポートフォリオマネジャーは、分布がある推定値を使用することにより、企業によって報告された排出量が使用する推定値と大きく異なるというリスクを軽減できる利点があります。最後に、分布を伴う推定値算出モデルは予防原則の適用を具体的に求めているパリ協定整合ベンチマーク(PAB)インデックスに応用できます。これは、予防原則では排出量を過小評価するよりも過大評価する推定値が優先されるためです。

企業報告の排出量データ不足は金融市場参加者にとって今後も大きなハードルであり続け、規制で報告が義務付けられるまでは開示が大幅に進むことはないでしょう。一方で、機械学習法はより単純な線形手法よりも確実な推定値を提供するだけでなく、推定値を裏付けるデータポイントがあるため、より信頼性の高い推定を実現できます。

ブルームバーグの温室効果ガス推定値について

ブルームバーグはデータを2010年までさかのぼり、世界5万社以上の上場・非上場企業の二酸化炭素排出量に関する会社発表値とブルームバーグ推定値を組み合わせて提供しています。報告をしていない企業に関しては、ブルームバーグは独自の機械学習モデルを開発し、800件以上のデータポイントを活用してスコープ1と2の排出量推定値を算出しています。また、ブルームバーグでは各推定値に対して確率分布内で異なるパーセンタイルを提供しているため、投資家は自社モデルにおいてどの推定値を採用するかを選択できます。さらに、信頼性スコアを提供することでブルームバーグ推定値の算出に使用したデータの規模や整合性に関する洞察も提供しています。

詳細については、こちら(Bloomberg’s Greenhouse Gas Emissions Estimates Model)をご確認ください。

本稿は英文で発行された記事を翻訳したものです。英語の原文と翻訳内容に相違がある場合には原文が優先します。