2月、ロンドンの雨に濡れた通り。反AIデモでコートを突き抜ける寒さの中、Pause AIのくしゃくしゃになったチラシが目に留まり、業界の壮大な計画を嘲笑っていた。
あのチラシ。ステップ1:デジタル超知能を育てる。ステップ2:? ステップ3:?
サウスパークのノームたちが98年にやったように、計画なしに利益を夢見てパンツを盗んだ。今度はAIの番だ。OpenAIやAnthropicのような企業はモデルを次々と生み出し、革新的な未来を喧伝するが、あの明白なステップ2を埋めるのは誰だ?
Pause AIは一時停止と規制を要求する。一方、推進派は救済へと突き進み、その虚無を覆い隠す。OpenAIの主任科学者ヤクブ・パチョツキはこれを「経済的に変革的な技術」と呼ぶ——甘い言葉だが、地図は hazy だ。
なぜAIのステップ2はノームのピッチデッキのように感じるのか
PRを剥ぎ取れ。2つの研究が真実を照らし出す。Anthropicは、LLMがマネージャー、アーキテクト、メディア関係者に最も大きな影響を与えると推測する——造園家は今のところ安全だ。しかし、それは実験室のタスクに紐づいた推測であり、オフィスの混沌ではない。
AI採用企業のMercorは、OpenAI、Anthropic、Google DeepMindのトップエージェントを480の実際の銀行員、コンサルタント、弁護士の仕事でテストした。結果は?全般的に壊滅的な失敗だった。
テストされたすべてのエージェントが、その職務のほとんどを完了できなかった。
それが引用だ——残酷で、飾り気がない。なぜこの乖離があるのか?主張する者たちには利害がある。Anthropicは安全性を売るために混乱を予測する。熱狂はコーディングツールのスピードに乗るが、戦略は?判断力は?LLMはそこで失敗する。
現実世界はそれを汚す——人々、ワークフローは抵抗する。AIのためにそれらをバラバラにする?時間がかかる、ビジネスが欠いている度胸が必要だ。
真空は荒唐無稽な主張を吸い込む。一つの投稿が市場を揺るがす。証拠は何もない。
ここにユニークな洞察がある:これはドットコムバブルの1999年と似ている。当時、光ファイバーとサーバーが積み上げられ(ステップ1)、利益は消滅し(ステップ3なし)、ステップ2——実際のeコマースの実行可能性——は悲惨なバストを経て明らかになった。AIは同じような浄化のリスクを負っている。厄介な企業でROIを証明することなく、それはバブル2.0だ。
AIエージェントはいつか職場でのタスクをこなせるのか?
すぐにではないだろう。研究は非コーディングの仕事での失敗を叫んでいる。銀行業務の精度?法律のニュアンス?コンサルタントは人間の「行間を読む」能力で成功する——AIの死角だ。
モデルメーカーはデータを隠し、ブラックボックスでデプロイする。透明性と実世界でのベンチマークが必要だ。ビジネスは研究者と連携するか、終わりのない推測になる。
業界は変革に全てを賭けている。まだ確実な賭けではない。次の大胆な主張は?アンダーパンツを思い出せ。
皮肉?シリコンバレーの trenches で20年間の経験が教えてくれる:熱狂は資金調達ラウンドを潤し、現実は墓場を潤す。今、誰が利益を得るのか?チラシを印刷する活動家、おそらく。VC?ステップ2が固まるまでだ。
規制はAIのステップ2の答えか?
Pause AIは「イエス」と言う——安全になるまで停止しろ。しかし、執行は?世界的な混乱だ。EUのAI法は端をかじる程度。米国?ロビイストが餌食だ。
推進派はイノベーションの殺害者だと叫ぶ。真実:規制はステップ2の明確さを強制する、さもなければ我々は永遠に熱狂を繰り返すだろう。
Mercorのテストは異例ではない。チェーンエージェント、ファインチューニング——それでもエッジケースで失敗する。ワークフローは絡み合い、AIが入り込み、さらに悪化させる。
歴史的な並行性が痛い:ドットコムバブル後の通信バブルは、収益化なしではインフラだけでは失敗することを示した。AIラボはパラメータを積み上げ(ステップ1)、AGIの黄金(ステップ3)を約束する。ステップ2は10倍の利益を証明するエンタープライズパイロットを要求する——稀な光景だ。
予測?2026年には淘汰が見られるだろう。これらのエージェントの半分は棚上げされ、生き残ったものはルーチンタスクに特化する。広範な変革?早ければ2030年、もしあれば。ビジネスは現金を貯め込み、証拠を待つ。
経済は約束にかかっている。Pause AIのような懐疑論者は穴を突く。賢い金はキーノートではなく、Mercorスタイルの評価を見る。
あのチラシ?予言的だ。ステップ2を埋めるか、ノームと共にミーム地獄へ落ちるかだ。
🧬 関連インサイト
よくある質問
AIの「失われたステップ2」とは何か?
強力なモデルの構築から実際の利益と変革への不明確な道——研究によると、エージェントは実際のタスクで失敗している。
AIエージェントは本当に職務で失敗するのか?
はい、MercorのOpenAIなどのトップモデルの480のタスクに対するテストでは、ほとんどの職務が未完了だった。
規制はAIの熱狂を解決するのか?
証拠を約束よりも優先させる強制力を持つかもしれないが、世界的な執行は遅れている。