Vercel CEO のGuillermo Rauch(ギジェルモ・ラウシュ)氏が、X上で「G’s Last Exam」と題した記事を公開し、大きな反響を呼んでいる。9.4万ビュー、574いいね、519ブックマークを記録したこの投稿は、AIがソフトウェアエンジニアリングにおいて「超知能(ASI)」を達成したと認めるには何が必要かという根本的な問いに答えるものだ。
AIエージェントがCコンパイラやウェブブラウザを丸ごと書けるようになった今、25年間プログラミングを続け、Vercelを10年率いてきたRauch氏が、真に「人間を超えた」と言える12の具体的な課題を提示した。単なるベンチマークではなく、それぞれが解決されれば世界に莫大な価値をもたらす実践的な挑戦だ。
「G’s Last Exam」とは何か?─超知能の定義を再構築
「G’s Last Exam」の名称は、AIの学術的能力を測る「Humanity’s Last Exam」にインスパイアされたものだ。しかしRauch氏のアプローチは根本的に異なる。学術テストではなく、実世界のソフトウェアエンジニアリングの超難問でAIを試すという発想だ。
Rauch氏はこう述べている。「数年前はコードの自動補完がせいぜいだったのに、今やAIが大規模な複雑ソフトウェアを書ける時代になった。しかし、これらのプログラムは本当により良く、より速く、本当に有用で必要なものなのか、それとも単なるニュース記事に過ぎないのか?」
全ての課題には明確な評価基準が設定されている:
| 基準 | 内容 |
|---|---|
| 完全自律 | コードは100%自律的に生成されること |
| 本番品質 | 性能問題、エラー、メモリリーク、脆弱性がないこと |
| 最小介入 | 人間の介入は最小限(ハーネス修正、リソース提供程度) |
| 独自性 | 既存パッケージの合理的な再利用は可だが、主にオリジナル |
| 保守性 | AIと人間の両方がメンテナンス・改善できること |
課題①〜④:セキュリティと基盤技術の超難問
① Heartbleedレベルの脆弱性を発見し、完全なPoCを生成する
2014年に発見されたOpenSSLの脆弱性Heartbleedは、たった1行のコードで世界中の銀行、暗号資産、防衛インフラのセキュリティを崩壊させた。Rauch氏は、AIがこのレベルの脆弱性を発見し、さらに攻撃実証コード(PoC)を完成させる能力を求めている。発見は「科学」、実証は「エンジニアリング」だと指摘し、両方を達成できることが真の能力だとしている。
② TypeScriptコンパイラをRustで書き直し、性能向上を実証する
Python・JavaScriptの基盤ツールがRustで書き直され驚異的な成果を上げている中、TypeScriptコンパイラだけは優秀なエンジニアでもRust化に失敗した。Microsoftは最終的にGoを選択した。共有可変性と循環参照が多用されたtscを、安全・正確・高速にRustで実装できれば、超人的エンジニアリング能力の証明になる。
③ 画像・動画だけを見てLiquid GlassをWebGPUで正確に再現する
AppleのLiquid Glassは、屈折歪み、ぼかし、動的曲率、スペキュラハイライト、コースティクス、フレネル、色収差といった物理・ライティングシステムだ。多くの人間がAI支援で試みたが、Appleの品質に匹敵する実装はまだない。AIが「見る」能力で既存の動作を観察し、それを再現できれば驚異的だ。
④ Jepsenスタイルの一貫性違反を主要OSSデータベースで発見し修正する
Kyle Kingsbury氏のJepsenプロジェクトは、KafkaなどのインフラソフトウェアでKingsbury氏が致命的欠陥を発見してきた。AIがデータベースの宣伝されている特性を深く理解し、テストツールを設計・実行して欠陥を証明できれば、データ損失やプライバシー漏洩の防止に直結する。
課題⑤〜⑧:パフォーマンスと創造性の限界
⑤ WebP/AVIF/JPEG XLを超える画像フォーマットのエンコーダ・デコーダを実装する
画像圧縮の改善にはこれまで人間の莫大な投資が必要だった。ニューラル圧縮による新しいアプローチは、デバイスのGPU性能向上により実用的になりつつある。単にコードを書くだけでなく、広範な採用・標準化・実装に適合するアイデアを生み出す必要がある。
⑥ Reactのドロップイン互換バージョンを作り、JSバンドルサイズを20%以上削減する
React 19.2.4 + ReactDOMは188.9KB(minified)、58.9KB(minzipped)。書き直しは理論的に改善可能だが、Hyrum’s Lawにより、ユーザーは外部APIだけでなく微妙なバグにも依存している。API互換性を保ちながら20%以上の削減を達成すれば、AI史上最大の基盤ライブラリ「リプラットフォーム」になる。
⑦ simdjson/yyjsonより高速なJSONシリアライザ・デシリアライザを実装する
JSONは世界で最も普及したデータ交換フォーマットで、simdjsonのようなプロジェクトがハードウェアのあらゆる利点を活用して最適化を極めている。AIがここで新しい高速化手法を考案できれば、最も執念深い人間のパフォーマンスエンジニアを超えたことを意味する。
⑧ 新しい「donut.c」を創作する
Andy Sloane氏のdonut.cは、ドーナツ型にフォーマットされたCコードがドーナツの3Dアニメーションを生成する、数学・芸術・コードゴルフの傑作だ。AIが独自にエンジニアリングの形をした芸術を創造し、簡潔なコードから「創発」的な美しさを生み出せるかが問われる。
課題⑨〜⑫:社会実装と大規模システム
⑨ WordleやReddit /r/placeのような新しいシンプルで面白いゲームを考案・実装する
Wordleの成功は「シンプルさ」にある。マルチプレイヤーなのにマルチプレイヤーネットワークコードがなく、絵文字エンコードでソーシャル共有を実現した。HTML・JS・CSSだけで実装でき、しかも世界的バイラル現象を起こす創発的ゲームをAIが生み出せるかという挑戦だ。
⑩ Google Meetのオープンソース版を、クライアント・サーバー・Terraformインフラ計画を含めて完全実装する
「素晴らしいソフトウェアのレシピは簡単だ。①無料でオープンソース、②ブラウザで動く、③有用で信頼性が高く高性能」とRauch氏。LLMが「ワンショット」でソフトウェアを書く例は世界を驚かせているが、それらは自己完結型で、分散システムでもなく、大規模でもなく、ミッションクリティカルでもない。完全な本番グレードシステムを自律的に作れれば本物だ。
⑪ npmをRustまたはGoで書き直し、API・セマンティクスの完全互換を保ちつつ大幅な性能向上を実証する
npmは370万以上のパッケージを持つ世界最大のパッケージレジストリだが、JavaScriptで書かれたクライアントは性能が悪い。pnpmやbun installなどの高速代替品があるが、「npmではない」という問題がある。パッケージマネージャは、OS互換性・レースコンディション・ネットワークエラー回復など、膨大な人間の努力が注がれた複雑な獣だ。
⑫ PorfforプロジェクトにPRを提出し、ECMA準拠100%を達成する
PorfforはJavaScriptをWebAssemblyにAOTコンパイルするプロジェクトで、ランタイムを含まないため結果バイナリが1000倍小さい(約90MB→100KB未満)。現在Test262準拠率62.15%。Rauch氏は他の課題とは異なり、既存OSSへの質の高い貢献をAIに求めている。残り37.85%を高品質PRで解決することが条件だ。
12課題の全体像─3つの能力軸
12の課題を分析すると、Rauch氏が測定しようとしている3つの能力軸が浮かび上がる。
| 能力軸 | 該当課題 | 核心 |
|---|---|---|
| セキュリティ・信頼性 | ①④ | 脆弱性の発見と証明、分散システムの欠陥検出 |
| パフォーマンス・最適化 | ②⑤⑥⑦⑪⑫ | 既存システムの書き直し・高速化・軽量化 |
| 創造性・芸術性 | ③⑧⑨⑩ | 視覚的再現、芸術的コード、ゲーム創案、完全システム設計 |
注目すべきは、単なる「コードを書く能力」ではなく、発見(①④)、創造(⑧⑨)、設計判断(⑥⑩)、既存プロジェクトへの貢献(⑫)という多面的な能力を問うている点だ。
なぜこの「試験」が重要なのか
Rauch氏の結論は示唆に富む。「ソフトウェアエンジニアリングの職業が永遠に変わったことにはほぼ全員が同意しているが、人間がどんな役割を果たすのかはまだ結論が出ていない。アーキテクト?自信に満ちたテイストメーカー?AIエージェントは人間のエンジニアの完全な代替になるのか?」
この12の課題リストは、人間が書き、人間が考案したソフトウェアの時代における最も野心的で創造的な成果を集約したものだ。AIエージェントがこれらの課題を自律的に解決する世界は、「謙虚さ、興奮、不安が同時に訪れる」とRauch氏は表現している。
現時点でAIはCコンパイラを書き、ウェブブラウザを構築できるが、Heartbleedを発見し、Wordleを発明し、Google Meetを丸ごと再現することはまだできていない。この差こそが、AIの現在地と真の超知能との間にある距離だ。
まとめ─ソフトウェアエンジニアリングの「最終試験」
Guillermo Rauch氏の「G’s Last Exam」は、AIの能力を測る新しいフレームワークとして画期的だ。学術的ベンチマークではなく、実世界で莫大な価値を生む12の超難問でAIを評価する。
重要なポイントをまとめると:
- プロトタイプと本番の区別:AIがコードを書けることと、本番品質のシステムを作れることは全く別次元
- 発見と創造の壁:既知のパターンの実装ではなく、未知の脆弱性の発見や新しいゲームの創案が真の試金石
- 既存エコシステムへの貢献:ゼロから作るだけでなく、既存OSSに高品質な貢献ができるかも重要
- 芸術とエンジニアリングの融合:donut.cやLiquid Glassのように、技術的卓越性と美的価値を両立できるか
この12課題のうち1つでも自律的に解決されれば、ソフトウェアエンジニアリングの歴史における転換点となる。全てが解決される日が来るとすれば、それはまさに人間が考案したソフトウェアの時代の終わりと、新しい時代の始まりを意味するだろう。
ソフトウェアエンジニア、AIリサーチャー、テック企業の経営者にとって、この「最終試験」はAIの現在地を正確に理解し、未来に備えるための必読のフレームワークと言えるだろう。

コメント