ビッグデータのアルゴリズム:誰のために機能するのか

Read the English version published on May 06, 2019.

コンピューターの性能が向上し、私たちの生活のほとんどあらゆる分野にデータ·サイエンスが関わってくるような、まさに「アルゴリズムの時代」が到来しました。いまや、個人的なデータや専門的なデータは編集·高速処理され、その一方で、数学モデルは、情報提供に留まらず、個人に直接的な影響を及ぼす重要な意思決定すら担うようになっています。(どこの大学に入ればよいのか、どんな仕事に就けばよいのかといったことから、各自に適した自動車ローンや住宅ローン、健康保険の見立てやコスト試算に至るまで)。ソーシャル·メディアで目に入ってくるニュースでさえ、アルゴリズムに導かれた結果が示されているのです。

たとえば過去のオンライン上のやりとりを元に、各自が興味を抱きそうな音楽や本、映画を薦めてくれるといった具合に、こうしたモデルは有益で日々の生活を豊かにしてくれるという側面はあります。しかし、先日ニューヨークで開催されたブルームバーグのクオンツ·セミナーで、データ·サイエンティスト兼研究者、起業家でもあるCathy O’Neil博士が指摘したように、本当に重要で、人生を決定づけるような意思決定をする段において、現在使われているモデルは不明瞭で、無秩序で、たとえそれが間違っている場合においてさえ、一刀両断的になります。それにもかかわらず、アルゴリズム·モデルが公平で、科学的で、客観的だとみなされることが多いのは、感情に左右されることのない機械が収集して保存する莫大なデータを利用しているからです。

あるアルゴリズムが、利害関係者全員を考慮に入れて動いているかどうかを、私たちはどのように評価し、再定義することができるのでしょうか。つまり、アルゴリズムがどこかの段階で不具合を起こした場合、それはどこなのか、そして関連する当事者全員にとってどのような結果をもたらすのか。――これは、機械学習とデータ·サイエンスの時代における核心的な問題です。O’Neil博士は次のように指摘します。「人工知能(AI)にできることとできないことを私たちはきちんと理解する必要があります。AIはとてつもなく素晴らしいものだと喧伝されてきましたが、実のところ、できることはかなり限られているのです。役に立たないということではありませんが、科学的な懐疑主義に基づいて扱われるべきです。AIの出した回答は、盲目的に信じるのではなく、検証すべきなのです」

倫理マトリクス:人間の行動を判断するアルゴリズムを診断する

O’Neil博士が最近の著書Weapons of Math Destruction, dangerous tools if used without careful critique(邦訳:『あなたを支配し、社会を破壊する、AI·ビッグデータの罠』 久保尚子訳、インターシフト、2018年)に書いたように、アルゴリズムは、注意深い基準を当てはめて使わないと危険な道具になりかねません。誤用の最も衝撃的なケースのいくつかは、刑事司法と児童保護制度に見られます。スピーチの中で博士は、常習的犯罪と児童虐待の両者についてのデータと判断を調べ、それらの問題点について詳しく説明しました。公共政策の分野では、どちらもデータ·サイエンスのツールを使って解決の難しい社会問題に取り組む事例の典型的な事例です。ところが、アルゴリズムの分析結果は、深刻な偏見に基づく欠陥だらけのもので、査定対象者およびサービスの提供を受ける人々に被害を及ぼす内容となってしまいました。

常習的な犯罪に関する研究は、逮捕歴のある個人に関するデータを見て、再び逮捕される確率を予想しようとする試みでした。このアルゴリズムは、単に逮捕されたかどうかを見るよう訓練され、容疑者が凶悪犯罪に関わったかどうかには関連付けられていなかったにもかかわらず、結果は長めの実刑判決となる可能性があるものでした。残念なことに、データによると、アフリカ系アメリカ人男性が「擬陽性」、つまり罪を犯していないのに逮捕される確率が、白人男性の倍になる傾向が見い出されました。O’Neil博士の分析では、一部で「倫理マトリクス」も使われています。これは、特定の結果について、その利害関係者を縦に、それぞれの見解を横にして表にまとめたものです。

ここで説明されたケースでは、3種類の利害関係者が示されました。裁判所、アフリカ系アメリカ人男性、白人です。明らかに、裁判所は「偽陰性」、つまり罪を犯したのに見逃されているのではないか、という点を懸念しています。そのような結果は、司法制度の弱点を示し、社会への脅威となり得るからです。一方で、アフリカ系アメリカ人男性の目には、偽陽性、つまり誤って自分が逮捕されてしまう場合の方がはるかに心配です。もし裁判官がこの分析に従って判決を下すと、本来よりも長い実刑判決を受けたり、無実なのに有罪にされたりする可能性があるからです。このケースにおけるグラフィカル·マトリクスでは、偽陰性への裁判所の見解は、深刻な懸念として黄色で示されました。そして偽陽性へのアフリカ系アメリカ人男性の見解は赤、つまり個人およびシステム全体にとって大きな問題があるとして示されました。判断に誤りがあった場合、そのように特定された人々に対して公民権の侵害となりかねないからです。

一般の人々を含むひとつの倫理マトリクスの拡張例は、この商用ツール(COMPAS常習的判断認識アルゴリズム)の業者であるNorthpointeへの疑問を呈しました。今回のO’Neil博士の調査によって、アルゴリズムの文脈の中で公平性と人種主義をどう定義すべきかについての哲学的、倫理的議論の必要性が明らかとなりましたが、問題の核心は、逮捕歴のデータを犯罪の有効な代理変数として使った開発者側の判断にあります。機械は、そのような判断と手法の妥当性を批判しませんので、開発者とユーザーは、こうしたツールがどのように構築され、広く使われていくのかについてもっと熟考しなければならないのです。

正しい判断をする――ホットラインと行動

児童保護制度に関する調査にも似たような事例があります。今回示されたデータは、ペンシルベニア州アレゲーニー群にある児童虐待通報ホットラインという、子どもの幸福に心を砕いている人々(教師や隣人たち、医師など)が情報を残すシステムからのデータを使いました。電話を受けて、子どもが危険にさらされているかもしれないと州が判断した場合には、ソーシャルワーカーがその子の家庭に送られるのです。このデータと解析モデルについては、2つの問題を孕んでいることが最初から明らかでした。まずそのデータには、すでに社会福祉制度の対象者となっている貧困な黒人家庭のデータが圧倒的に多かったこと、そして子どもが家庭から保護されると「成功」とみなすようにアルゴリズムが訓練されていたことです。ここでの問題は、子どもは実際の虐待以外の理由(貧困、暖房や食料品の欠乏等)でも家庭から保護される場合があることで、「保護」が明確な(虐待の)シグナルになっていないのです。つまり、このアルゴリズムの場合には、「虐待の事実が立証されたときに『成功』とみなす」と定義しておくべきでした。

倫理マトリクスで、最も懸念される対象となったのは子どもの家族です。家族は偽陽性(虐待の事実がないのに虐待とみなされてしまう)を恐れ、一方で子どもたち自身は、偽陽性と偽陰性(虐待の事実があるのに虐待とみなされない)を両方とも恐れるでしょう。主な利害関係者とそれぞれの見方への理解を深めれば、調査手法は洗練され、データ分析を通じて答えを見つける時に発する質問や疑問を再構築できるようになるでしょう。そのような行動はまた、より徹底的かつ周知された施策と応答を通じて、赤のカテゴリーの一部を黄色ゾーンへと移す手助けになるかもしれません。

人々の関心を高める

アルゴリズムが関与するその他の調査分野としては、不正投票、大学の入学選考、教師の付加価値モデル(VAM)などがあり、とくに教師のVAMは、実際に、一貫性のない結果に基づいて解雇が行われていました。O’Neil博士は、統計学的な脆弱性に関するこうした問題から一歩離れ、データ·サイエンスにおける倫理的問題を、とりわけ公共政策という文脈の中で広く議論し、人々の高い関心を喚起すべきだと強調しました。O’Neil博士はまた、次のようにも指摘しています。「最悪の事態があり得ることを頭の中ではわかっていますが、必ずしもそのことばかりを考えているわけでも、それを防ぐ方法を考えているわけでもありません。本日ご紹介したケースの場合、問題に対して直接的にどう取り組むかを考えることが重要です。私たちの潜在的な価値観が何なのか、そしてデータ分析によって何を達成したいのかを再度じっくりと考えることが必要なのかもしれません」

金融市場の分野では、クオンツ·モデルでの前提条件を確認し、その内容をよく理解することは非常に重要です。さらに、疑問や質問をどう組み立てるかによって、回答の組み立て方も影響を受けるでしょう。最後に、過度な複雑化と過度な単純化との間のどこかで必ず常にバランスを取らなければなりません。正しい組み合わせを見つけることができれば、恐らく破壊を防げるでしょう。

クオンツ業界の専門家から

短い質疑応答セッションに続いて、今回のイベントのホスト役を務めたBruno Dupireにより、一連の「ライトニング·トーク」の口火が切られました。このセッションは、業界の専門家や研究者、学者らが幅広い題材について意見を表明し、さまざまな分野間で新鮮な発想や意見交換のきっかけを与えようとするもので、各自の持ち時間は5分というプレゼンテーションです。それぞれのトークは、クオンツ業界の進化する方法を検討し、ブルームバーグ·クオンツ·セミナー·シリーズに不可欠な探索心を深掘りする役割を担っています。

独立研究者であるIoana Boier氏はニューラルネットワークの微妙な差異について話しました。ブルームバーグL.P.David Mitchellは、中国の債務を可視化する方法を示しました。スタジオMDAの建築家、 Markus Dochantschi氏は、ニューヨーク市にある線形公園「ハイ·ライン」に沿った一連のギャラリーを「アートシーン」の中で紹介しました。そして、スティーブンス工科大学のMenglu Jiang氏は、米国の原油需要に関する掘り下げた研究について発表しました。

さらに、FF Capital PartnersMohsen Mazaheri氏が、期待グローバル·コンベクシティに関するの最近の研究について説明し、ブルームバーグL.P.Luca Mertensは、株式市場への影響を評価するのに 有効なツールである「状態空間モデル」について発表しました。