2026.04.01 ｜テクノロジー

AGIの進化は測れるのか？DeepMindが示した評価指標

AIはどこまで人間に近づいたのか。この問いに対して、はっきり答えられる基準はこれまで存在しませんでした。理由は「人間レベルの知能」が曖昧だったからです。Google DeepMindはこの課題に対し、知能を10の能力に分解して測る枠組みを提示しました。AIの進化を感覚ではなく構造で捉える試みです。

ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください！

現在募集中の職種はこちら

AGIはなぜ測れなかったのか──曖昧だった「人間レベル」の正体

AGI（人工汎用知能）は、人間のように幅広いタスクをこなせる知能を指します。しかしこれまで、その進捗を客観的に評価する明確な基準はありませんでした。最大の理由は、「人間の知能とは何か」が具体的に整理されていなかった点にあります。
人間の知能は単一の能力ではなく、知覚や記憶、推論、注意といった複数の要素が組み合わさって成り立っています。そのため、一部の性能が高いだけでは全体として人間レベルに達しているとは言えません。それにもかかわらず、従来は特定の能力だけを切り取って評価する場面が多く見られました。

近年は大規模言語モデルの登場により、AIが対応できる作業の幅が大きく広がっています。その結果、「AGIに近づいているのではないか」という見方も広がりましたが、その多くは統一された基準ではなく、印象に依存した評価です。Google DeepMindはこうした状況に対し、進捗を測る枠組みが存在しないこと自体が問題だと指摘しています。曖昧なままでは比較も検証もできない。だからこそ、知能を分解し、評価可能な単位に落とし込む必要がある――この発想が次の一手につながります。

「10の知能」で見えるAIの現在地──評価方法と残された課題

Google DeepMindは、人間の知能を複数の能力に分け、合計10の観点から評価する枠組みを提示しました。知覚や出力生成、学習、記憶、推論、注意といった基本的な認知能力に加え、「メタ認知」と「実行機能」が含まれます。メタ認知は自分の思考を把握し制御する力、実行機能は計画や意思決定、衝動の抑制などを担う働きです。さらに、これらを組み合わせて発揮される能力として、「問題解決」と「社会的認知」が定義されています。社会的認知とは、状況や相手を理解し、それに応じて適切に振る舞う力です。
評価は各能力ごとにテストを行い、AIと人間を同じ条件で比較する形で進められます。人間側の基準としては、高校卒業以上の成人を対象としたデータが用いられ、その結果は「認知プロファイル」として整理されます。これにより、AIの得意分野と苦手分野が一目で把握できるようになります。

重要なのは、「どのように動いているか」ではなく「何ができるか」に焦点を当てている点です。技術の仕組みに左右されず、純粋に能力で比較できる設計になっています。
一方で、すべての能力を同じ精度で測れるわけではありません。問題解決や知覚には一定の評価指標があるものの、メタ認知や注意、学習、社会的認知といった領域では、信頼できる測定方法が十分に整っていないのが現状です。また、多くの評価指標が公開されているため、AIの学習データに含まれている可能性も指摘されています。
つまり、この枠組みは「AIが人間にどこまで近づいたか」を断定するものではなく、「どの能力がどこまで到達しているのか」を切り分けて把握するためのものです。AGIを一つの到達点として語るのではなく、能力ごとの積み重ねとして捉える視点が、ここでははっきり示されています。

まとめ

いかがだったでしょうか？
AGIは「近づいているかどうか」を感覚で語る段階から、「どの能力がどこまでできているか」を具体的に測る段階へ移りつつあります。Google DeepMindの枠組みは、そのための基準を整理する試みです。ただし、すべての能力を正確に評価できるわけではなく、指標にはまだ課題が残されています。今後は、この評価方法が実態をどこまで捉えられるのかが問われていきます。

参考記事：Google DeepMind Plans to Track AGI Progress With These 10 Traits of General Intelligence