人工知能(AI)革命にまつわる重要用語の解説

Read the English version published on October 15, 2024.

本稿はSeth Fiegerman、Nate Lanxon(協力:Dina Bass、Jackie Davalos、Shirin Ghaffary、Rachel Metz)が執筆し、ブルームバーグ ターミナルに最初に掲載されました。

人工知能(AI)の分野は、進歩するたびに難解な用語が次々と登場してきます。AGIとGPTの違いについてなど、重要用語の定義を以下に解説します。

2022年後半に登場したChatGPTチャットボットは、膨大な数のクエリに対して非常に洗練された答えを返し(たまに間違うこともありますが)、人工知能分野においては数十年かけて到達したマイルストーンとなるものでした。さかのぼること1960年代、科学者たちは「コンピュータービジョン」を実験し機械に「読解」能力を与え、チャットボットはまだビートルズが活動していた頃に誕生しました。

今やハイテク企業はかつてないほどに洗練されたAI製品の開発を競っています。ユーザーと対話したり、複雑な数学の問題を解いたり、短編映画を制作したりと、多岐にわたるタスクでいつの日か人間を上回ることができるかもしれません。機械に取って代わられることを心配している方も、その可能性に興味をそそられている方も、AI主導の世界を知るのに欠かせない用語をご紹介します。

デモ申し込み
  • AGIAI企業が現在注目しているのは、汎用(はんよう)人工知能(artificial general intelligence 、AGI)という考えです。とはいえ、AGIの定義については意見が一致していません。「AGI」という用語は通常、人間の関与をほとんど必要とせずに多岐にわたる複雑なタスクを完了できる架空のAIシステムを指します。ChatGPTの開発元、オープンAIはこれに一歩踏み込み、AGIを「最も経済的に価値のある仕事において、人間を上回る高度に自律的なシステム」と定義しています。ただし、何を「高度に自律的なシステム」とするのか、さらに言えば何を「経済的に価値のある仕事」と見なすのかは、はっきりしていません。AI業界の中には、今後10年以内にAGIを実現できるという意見もあれば、仮に実現するとしてもはるか先だろうという意見もあります。
  • agents(エージェント):生成AIブームから最初の1年ほどがチャットボットに集約されるなら、次のフェーズとして来るのはエージェントかもしれません。少なくとも多くのハイテク企業がそう確信しています。ChatGPTのようなチャットボットなら、簡単なレシピやレストランのリストを作成できるでしょう。一方、AIエージェントでは、ユーザーの代わりに材料を注文したり、レストランを予約したりすることが期待されます。個人や仕事で使うには魅力的ですが、AIがエラーを犯した場合のリスクも高まります。
  • algorithm(アルゴリズム):問題解決に使用される段階的なプロセスを意味します。ある一つのデータを入力し、いくつかのロジックを適用すると、一つの出力が得られます。人間は何世紀にもわたり問題解決のためにアルゴリズムを使用してきました。金融アナリストの中には、将来発生するイベントを予測して利益を稼ぐのに活用できるアルゴリズムを構築することにキャリアを費やす人もいます。私たちの世界は、こうした「従来型」のアルゴリズムで動いていますが、最近では、こうした考え方をベースにした「機械学習」へのシフトが進んでいます。
  • alignment(アライメント):AIの暴走を防ぐために、業界の一部ではアライメント(人間の意図に沿うこと)の問題を解決すること、すなわち、テクノロジーが人間の核となる価値観に確実に従うことに焦点を当てています。しかし問題は、核となる価値観とは何か、AIシステムは何をすることが許され、何をすることが許されないかの判断は、人によって異なるということです。
  • artificial intelligence(人工知能):広義で使われるこの用語は、乱用されすぎて意味を失っている部分もあります。とはいえ、大まかには、人工知能とは人間の知能をモデル化し、人間が処理すべきだったあろうさまざまなタスクを実行できるテクノロジーを指します。コンピューター科学者のJohn McCarthy氏が1950年代に「AI」という用語を作り出しましたが、本格的に普及したのは今世紀に入り、グーグルやフェイスブック親会社メタ、マイクロソフトなどのテクノロジー大手が、膨大な処理能力と大量のユーザーデータを組み合わせ始めてからです。AIはデータ処理や会話では人間のような能力を発揮できますが、まだ人間の言動を「理解」しているわけではありません。AIは依然として、本質的にはアルゴリズムに依存しています。
  • benchmarks(ベンチマーク):AIサービス市場への参入が一段と増加している中、ハイテク企業は通常、さまざまなベンチマークを用いて自社のソフトウエアが競合他社よりも優れていることを示します。しかし、AI企業各社が自社のソフトウエアの比較に使用するための、独立性のある標準化されたテストはまだ存在しません。業界ではこの問題を解決しようとする動きもあります。現時点では、企業は一般的に独自のベンチマークを設計し、代数、読解力、コーディングに関する質問に自社のサービスがどの程度的確に対応できるかを示しています。
  • chatbots(チャットボット):オンラインのカスタマーサービスに問い合わせしたことがある方ならご存じの通り、チャットボットは生成AIが台頭する前から存在しています。しかし、AIチャットボットの新時代においては、歴史のトリビアから新しい料理のレシピに至るまで、さまざまなトピックについて一段とリアルタイムなやりとりができるようになりました。また、オープンAIやグーグルなどの企業がより洗練されたモデルに投資するにつれて、チャットボットはさらに便利で対話能力が高まる可能性が高く、おそらくハイテク業界の長年の目標である万能型仮想パーソナルアシスタントに近づくでしょう。
  • Claude オープンAIの最先端技術のパフォーマンスに真に匹敵する、数少ないサービスの一つです。オープンAIの元従業員のグループが設立したスタートアップ企業Anthropicが開発したチャットボットで、人工知能の安全な開発を優先することに焦点を当てています。ChatGPTと同様に、クロードはユーザーからのさまざまなクエリに迅速に対応できます。ただしオープンAIとは異なり、Anthropicはこれまで画像生成などの一定のユースケースを避けてきました。主にビジネス顧客向けの製品の構築に注力しているということです。
  • computer vision(コンピュータービジョン):コンピューターが画像や動画などの視覚情報をスキャンして、物体や人物を識別・分類できるようにするAIの分野を指します。見たものに反応して特定のアクションを実行したり推奨したりできます。このテクノロジーは、保護を目的とした野生生物の追跡や、自律走行車の誘導などに使われています。軍事作戦や警察活動での使用には懸念があり、人種的偏見が見られたり、特定の人物を確実に識別するために必要な精度が不足したりしています。
  • emergent behaviors(創発的行動):大規模言語モデルが一定のスケールに達すると、トレーナーが意図も期待もしなかったという意味で、どこからともなく現れたような能力を示し始めることがあります。例えば、実行可能なコンピューターコードを生成する、奇妙な物語を語る、一連の絵文字を手掛かりとして映画を特定する、などが見られます。
  • fine-tuning(ファインチューニング):「カスタマイズ」のしゃれた呼び方と考えてください。既存のAIモデルにファインチューニングを実装すると、AIモデルは特定のタスクや主題領域に関する追加情報に基づいて訓練します。これにより、ユーザーの思う通りにAIモデルを実行できるようになります。例えば、エクササイズ機器を販売する会社は、AIモデルにファインチューニングを行うことで、フィットネスバイクの正しいメンテナンスに関するクエリに対してより適切に応答できるようになります。
  • frontier models(フロンティアモデル):市場で最も先進的なAIモデルを指します。現在、これらのモデルを開発している企業としては、オープンAI、Anthropic、グーグル、メタなどの企業があげられます。すべて「フロンティアモデル・フォーラム」と呼ばれる業界団体に加盟しています。同団体は、最先端のAIシステムの責任ある開発を促進するために学者や政策立案者との協働に焦点を当てています。こうした最先端モデルの開発コストは大幅に増加すると予想され、スタートアップは大手のハイテク企業と競争するのが困難になるとみられています。
  • Gemini(ジェミニ):AI競争で当初先頭に立っていたグーグルは現在、オープンAIに追いつこうと奮闘しています。グーグルの取り組みの中心にあるのがジェミニで、主力のチャットボットとそのAIモデルファミリーを指します。ジェミニの最も高度なバージョンは「Ultra(ウルトラ)」と呼ばれます。複雑なコーディングタスクと数学的推論を処理できるとされ、オープンAIのテクノロジーの最先端バージョンに類似しています。グーグルはジェミニにマルチモーダル機能を組み込んでおり、例えば食事の画像に反応して、そのレシピを示すことができます。
  • generative AI(生成AI):単純な質問や命令から、作品(画像、エッセー、歌、労働歌など)を生成することを指します。例えば、精巧で詳細な画像を数秒で作成できるオープンAIのDALL-E(ダリ)や、文字による叙述から音楽を生成するSuno(スノ)などがあります。生成AIでは、膨大な量に及ぶ既存の素材で訓練された上で、一つの新しい作品が生み出されます。そのため、自身の作品が盗作されたとする著作権者からの訴訟もいくつか発生しています。
  • GPTA:Generative Pretrained Transformerの略で、大規模言語モデルの一種です。「Transformer」とは、入力の文字列を単独で、ではなくまとめて処理できるシステムを指し、文脈や語順を捉えることができます。これは言語翻訳で重要な役割を果たします。例えば、「彼女の犬であるポピーは台所で食べた」という英文は、語順や構文、意味に十分注意しないと、「ポピーが彼女の犬を台所で食べた」というフランス語に翻訳されてしまうことがあります。
  • Grok(グロック):一見しただけで、不真面目な取り組みとして軽視するのは簡単です。イーロン・マスク氏のAIスタートアップ「xAI」が構築したグロックは、同氏のXマイクロブログ・プラットフォームの加入者に提供されています。その不遜な文面の返答や、明確な規制ルールがほとんどない扇動的な画像の作成で話題になりました。しかし、xAIは数十億ドルを調達し、才能豊かな人材チームを呼び込んだほか、Xユーザーからの膨大なデータにアクセスして、AI製品の構築に活用しています。結果として、グロックは驚くほど短期間で真の競合として浮上しました。
  • hallucination(ハルシネーション):ChatGPTのようなAIサービスが、説得力があるように聞こえながら、完全に捏造(ねつぞう)されたものを作り上げることを「ハルシネーション」と言います。システムが質問に対する正しい答えを持っていないにもかかわらず、どのような感じであれば「良い答え」であるかを認識しており、それを事実として提示することで生じる結果です。AIが何かを尋ねられたときに「わかりません」と言えないことは、代償の大きいミス、危険な誤解、そして誤った情報の拡散につながると懸念されています。一部のAI企業は、チャットボットが即答する前に推論にもっと時間をかけるなどして、新型のモデルでは精度を向上させることができたと述べていますが、ハルシネーションの問題は依然として残っています。
  • large language models(大規模言語モデル(LLM)):電子書籍、ニュース記事、ウィキペディアなど、大量のテキストとデータを使用して訓練された、非常に大規模なニューラルネットワークを指します。何十億ものパラメータから学習するLLMは、自然言語処理のバックボーンとして、テキストの認識、要約、翻訳、予測、生成が可能です。
  • Llama(ラマ):メタが多額の投資を行った最先端のAIモデル群ラマは、他の開発業者でもアクセスし、これに基づいて製品を構築できます。このアプローチにより、メタはラマが自社のチャットボットであるメタAIだけでなく、他社のさまざまな製品の基盤となることを望んでいます。これが実現すれば、メタ(そしてラマ)がAIエコシステムの中心的存在になるかもしれません。
  • machine learning(機械学習):大量のデータに触れさせることで、アルゴリズム(特定の結果を達成するための複数の命令)を徐々に改善するプロセスを指します。多数の「入力」と「出力」を確認することにより、コンピューターは必ずしも目の前にある特定の仕事の詳細について訓練を受けなくても「学習」ができます。iPhoneの写真アプリを例にとります。最初、アプリはユーザーの外見を認識していません。しかし、長年にわたってさまざまな環境で撮影された写真に自分自身をタグ付けしていくと、アプリはユーザーの顔を認識する能力を取得します。
  • model collapse(モデル崩壊):AIモデルがAI生成コンテンツなどのデータで訓練されると最終的にパフォーマンスが低下することが研究者たちによって発見されました。AI作成コンテンツがオンラインで大量に普及している現状において、この現象が起こる可能性が一層高まっています。一部のAIウォッチャーは、AIモデルはAI生成コンテンツで過度に訓練された場合、「崩壊」する可能性さえあると懸念を示しています。2023年に行われたモデル崩壊に関する研究では、AIモデルが人間の画像を「わずかでも自作した」コンテンツで再学習すると、次第にゆがんでいくことが分かりました。
  • multimodal(マルチモーダル):AI企業はテキスト、画像、音声など、さまざまな入力データを処理して応答できる「マルチモーダル」システムにますます注力しています。例えば、チャットボットに話しかけて応答させたり、数学の問題の画像を表示して解答を求めたりできます。これにより、AI製品の汎用(はんよう)性が向上するだけでなく、デジタルアシスタントと実際に会話しているかのように感じられます。
  • natural language processing(自然言語処理(NLP)):このAI分野は、コンピューターが人間と同じように音声やテキストを理解・処理・生成するのに役立ちます。NLPは機械学習アルゴリズムに依存して、書面のテキストからデータを抽出したり、言語を翻訳したり、手書きの単語を認識したり、意味と文脈を識別したりします。これは、SiriやAlexaなどの仮想アシスタントを機能させるために基盤となるテクノロジーで、指令を理解するだけでなく、自然言語で応答できます。NLPは感情を表すテキストも測定できるため、Siriに「悲しい」と伝えると、友達に電話することを勧められるかもしれません。その他の日常的な用途としては、Eメール・スパム・フィルタリング、ウェブ検索、スペルチェック、テキスト予測などがあります。
  • neural networks(ニューラルネットワーク):AIの一種で、人間の脳と同じような方法、つまり試行錯誤を経て学習するようにプログラムされているコンピューターを指します。子供の脳が教えられたことに基づいて神経経路のマッピングを学ぶのと同じように、成功か失敗かがその後の試みと適応に影響を与えます。このプロセスでは習熟のためには何百万回もの試行が必要で、これがAIプラットフォームで膨大な量のコンピューター処理能力を必要とする理由の一つです。
  • open source(オープンソース):AI業界と、AIを規制しようとする人々で大きく意見が分かれる問題の一つは、オープンモデルを採用するかクローズドモデルを採用するかということです。「オープン」という用語を漠然と使う人もいますが、「オープン」とはモデル開発者がソースコードを誰でも自由に利用・改変できるようにしているオープンソースモデルの考えを指します。この定義は、非営利団体のOpen Source Initiativeから来ており、真のオープンソース・ソフトウエアは、配信とアクセスに関する特定の条件に準拠する必要があると指摘しています。
  • parameters(パラメータ):AI企業が新しいモデルをリリースする際、製品を差別化するためにパラメータの数の多さに言及することがよくあります。パラメータという用語は、訓練プロセス中にモデルが取得する変数の総数を指し、大規模言語モデルが実際にどれ程の規模かを示します。パラメータ数は極めて大きい場合があります。例えば、メタのLlama AIモデルには三つのサイズがあり、最大のものは約4000億のパラメータを持ちます。
  • prompt(プロンプト):今日、AIツールを使用する際、大抵はプロンプトから始まります。プロンプトとは、ユーザーからのあらゆるクエリやリクエストを指します。例えば、AIチャットボットに文書の要約、家のリフォームのアイデア提案、ブルーベリーマフィンへの愛を歌った作詞などをAIチャットボットに依頼することなどです。
  • prompt engineering(プロンプト・エンジニアリング):AIプラットフォームの応答の精度と有用性は、与えられるコマンドの品質に大きく依存します。プロンプト・エンジニアリングでは、自然言語の命令をファインチューニングして、最小限の計算能力で一貫性のある高品質の出力を生成できます。
  • reasoning(推論):2024 年9月、オープンAIはより複雑な数学やコーディングの問題に対応するなど、人間のような推論タスクを実行できる、新しいモデルの展開を開始しました。基本的に、このアップデートされたAIシステムは、ユーザーに応答する前に回答の算出に時間をかけるため、マルチステップの問題をより適切に解決できます。グーグルやAnthropicも、高度なAIモデルを使用して推論スキルを開発しています。
  • small models(小型モデル):ハイテクAI業界は長年にわたり鍛錬しながらより規模の大きなモデルを構築してきましたが、必ずしも規模が大きければ良いわけではないとする考えもあります。オープンAI、グーグル、メタなどは、主力の大規模言語モデルよりもコンパクトで機敏なソフトウエアの小型モデルをリリースしています。小型モデルは、大規模なモデルに比べパフォーマンスが優れるわけでないかもしれませんが、小型モデルは顧客にとってより効率的で安価な選択肢となり得ます。
  • sentient AI(感覚を持ったAI):研究者の間では、センチエント(感覚)や意識を持つAI、つまり周囲の世界を認識して反映することができるAIが現実のものとなるのは何年もかかるという意見が優勢です。AIは人間のような能力を発揮できるものの、まだ自らの言動を「理解」していません。人間が生成する膨大な情報からパターンを見つけ、プロンプトにどのように反応するかを決定する公式を生成しているにすぎません。そして、「意識」が何であるかについてまだ一般的に意見が一致していないため、意識が芽生えたと判断するのは難しいかもしれません。
  • synthetic data(合成データ):AIチャットボットを支える大規模言語モデルを開発するためにこれまで以上に多くのデータを見つけようと、一部のハイテク企業は合成データを実験しています。企業は独自のAIシステムを使用して記述やその他のメディアを生成し、新しいモデルの訓練に応用しています。このアプローチの利点は、訓練データのソースに関する法的および倫理的な懸念の一部を回避できることです。しかし、留意すべき点もあります。すなわち、AIシステムのパフォーマンスの低下、つまり「モデル崩壊」として知られる現象につながりかねないという懸念です。
  • training data(訓練データ):AI企業は、ユーザーからのクエリに応じてテキスト、画像、音楽、その他のメディアを作成できるAIモデルを開発(すなわち訓練)するために、膨大な量のデータを抽出したりライセンス供与したりしています。企業は依存している特定の訓練データについて詳細を明らかにしない傾向がありますが、AIチャットボットの場合、記事、書籍、オンラインコメント、ソーシャルメディアの投稿がなどが使用されている可能性があります。音楽生成AIのSunoは、同社のソフトウエアは著作権で保護されている可能性のある作品を含む「数千万件の録音」で訓練されているとしています。

本稿は英文で発行された記事を翻訳したものです。英語の原文と翻訳内容に相違がある場合には原文が優先します。

デモ申し込み