イーロン・マスクのAll-In Summit 2024でのインタビュー(AI部分)

今日は、エロン・マスクがAll-In Summit 2024で行ったインタビューを聞きました。特に人工知能(AI)に関する部分が印象的でした。最近、ユヴァル・ノア・ハラリの『ホモ・デウス』を読んでおり、ハラリは本の中で未来に対する多くの懸念、特にAIがもたらすかもしれない社会的な影響について触れています。しかし、エロンのAIに関する見方はより楽観的のようです。

Castbox Podcastリンク🔗:https://castbox.fm/episode/id6075589-id735784004

部分:

司会者:あなたはAIの主要な応用分野について考えていますか?それは自動運転に使われるのでしょうか?それともロボット工学に?あるいは業界全体を変革するものですか?私は現在、AIがビジネスに与える大きな影響はまだ初期段階にあると考えていますが、あなたの意見はいかがですか?

エロン:私は、現在のAIへの支出が収入をはるかに上回っていることは間違いありません。しかし、AIの進化速度は私がこれまでに見たどの技術よりも速く、他の技術を大きく上回っています。例えば、チューリングテストはかつて基準でしたが、今ではオープンソースのランダムな大規模言語モデルをラズベリーパイで実行することで、おそらくそのテストを通過できます。だから、私はAIによる素晴らしい未来が非常に大きな繁栄をもたらすと考えています。それは資源が豊富で、商品やサービスの不足がない時代です。誰もが欲しいものを手に入れることができ、唯一不足するのは私たちが意図的に希少性を定義したもの、例えば特別な芸術作品などです。しかし、製造されるすべての商品や提供されるすべてのサービスに関しては、AIとロボティクスの進歩によりコストがほぼゼロに近づくと思います。完全に無料になるとは言いませんが、コストは非常に低くなり、ほぼ誰でも欲しいものを手に入れられるでしょう。それは素晴らしい未来です。私の見解では、このような素晴らしい未来の確率は約80%です。20%は破滅的な結果につながる可能性があります。

司会者:その20%の可能性とはどのようなものでしょうか?

エロン:正直に言うと、私はAIに関する懸念を意識的に脇に置かなければ、眠れません。それでも、本当の問題は、AIが私たちより優れた能力を持つ世界において、私たちはどのように意味を見出すかだと思います。これがおそらくより大きな挑戦です。しかし、最近では引退した後も生活を楽しむ人が増えているので、将来は意味の危機に直面するかもしれません。コンピュータが私たちが行うことをすべてより良くできるためです。しかし、これは単なる挑戦に過ぎないかもしれません。実際には、最終要因が必要です——自動運転車と汎用の人型ロボットです。一旦あなたが汎用の人型ロボットと自動運転車両を持てば、基本的に何でも作ることができます。私は経済規模には実質的な制限がないと考えています。もちろん、地球の質量は一つの制限ですが、経済の本質は一人当たりの平均生産性と人口数です。もし人型ロボットがあり、その数に実質的な制限がなく、非常に賢く働けるなら、経済規模にも実質的な制限はないでしょう。

司会者:あなたたちが最近立ち上げたコロッサスは、現在最大のプライベートGPUコンピューティングクラスターですよね?

エロン:はい、それはどんなタイプでも最も強力なスーパーコンピュータです。

司会:これにより、デイビッドとピーターが述べたことが裏付けられました。現在、AIがもたらす経済的価値はほぼすべてNVIDIAに流れています。しかし、代替案もありますし、貴社はその一例です。なぜなら、Dojoは主に画像や大量のビデオを処理するために使用されるからです。

イーロン:はい、テスラの問題は大規模な言語モデルの問題とは異なり、必要とされる知能の性質も異なります。先ほどお話があったように、テスラの問題は非常に長いコンテキスト長を処理する必要があります。私たちのコンテキストデータ量は非常に大きいです。ご存じのように、テスラのシステムには7つのカメラがあり、数分間の高解像度ビデオがあれば、データ量はGB単位になります。したがって、テスラが直面している問題は、巨大なコンテキストを本当に重要なピクセルデータに圧縮することです。空間次元だけでなく、時間次元でもピクセルを圧縮する必要があります。そして、比較的小さな計算装置で推論を行う必要があります。例えば、テスラのAI推論チップは消費電力が数百ワットしかありません。この推論チップは依然として現時点で最高のものであり、サプライヤーからはより良い製品を調達できません。テスラのAI設計チームは非常に優れています。

司会:しかし、いずれ他のビデオや画像を処理する企業がこれらの余剰計算能力を利用できるようになれば、それが意図したものではないとしても、あなたはNVIDIAの競争相手になるかもしれません。

イーロン:はい、現在私たちは2つのプロジェクトを持っています。1つはトレーニング用コンピュータであるDojo、もう1つは各車両で使用される推論チップです。現時点ではDojo 1のみですが、来年末までにDojo 2を大規模に展開できるはずです。私たちは、Dojo 2の性能がB200タイプのトレーニングシステムと同等になると信じています。将来、それは他の会社にもサービスとして提供される可能性があります。ただし、Dojoへの信頼は向上していますが、本当にどれだけ優れているかはDojo 3まで待たなければなりません。通常、技術は3回の大規模なイテレーションを経て初めて優れたレベルに達します。来年には2回目の大きなイテレーションを迎えますが、3回目は2026年末頃になるでしょう。

司会:Optimusプロジェクトの進捗状況はいかがですか?前回話し合った際、あなたはそれが工場内でいくつかの軽量テストを行っていることを公表していましたので、すでに一部の役割を果たしているようです。では、材料コストはどのくらいでしょうか?例えば、Model 3と同じように大量生産し、生産ラインが年間100万台を作ることができるとしたら、そのコストは2万ドル、3万ドル、それとも4万ドル程度でしょうか?

エロン:私は発見しました、生産量が十分に大きい場合、すべての物のコストは最終的にその材料コストに近づくということです。もちろん、ここで付け加えたいのは、知的財産、例えば特許料によってコストが制限されるものもあります。だからこそ、半導体のコストには大きな部分が著作権料や工場の減価償却費が含まれています。しかし、半導体の限界コストは非常に低いのです。オプティマスは明らかに人型ロボットであり、車よりもずっと軽く、小さくなっています。したがって、高生産量の場合、少なくとも3回の製品版イテレーションが必要になると言えるでしょう。少なくとも3回の大規模な設計改善が必要で、その後初めて年間100万台を超える規模での生産段階に入ることができます。そして、その時点でオプティマスの労働と材料コストは1万ドルを超えないだろうと思います。

司会者:それはおそらく10年にわたるプロセスとなるでしょう。

エロン:基本的にこう考えてください、オプティマスのコストは小型車両より安くなるでしょう。したがって、3回の大規模技術イテレーション後、規模化された生産では、もし小型車両のコストが2万5千ドルであれば、オプティマスのコストは約2万ドルになるかもしれません。それはR2-D2やC-3POのようにあなたのために働く人型ロボットです。率直に言って、人々は彼らの人型ロボットに非常に依存するようになると思います。『スター・ウォーズ』を見ると、みんなR2-D2やC-3POを愛しています。彼らは素晴らしいし、個性があります。R2-D2ができるのは単にピーピー音を出すだけで、英語は話せません。C-3POがそれを翻訳します。

司会者:あなたが2〜3年に一度イテレーションを行うなら、規模化するまでに10年かかるかもしれません。

エロン:私は、各主要イテレーションサイクルは2年未満だと言うでしょう。年間100万台の生産量に到達するには、おそらく5年ほどかかり、最大で6年かかるでしょう。

司会者:その頃には、地球上の誰もが人型ロボットを手に入れられるようになるでしょう。最終的に、もし30年後にここで話しているとしたら、あなたは地球におけるロボットと人類の比率をどう考えますか?

イーロン:私はロボットの数が人類をはるかに上回ると考えています、はるかにね。認めざるを得ないですよ、誰がロボットのパートナーを持ちたくないですか?全員が欲しいはずです。特にそれがあなたの犬を世話して散歩に連れて行ってくれたり、芝生を刈ったり、子供を見てあげたり、さらには教育までしてくれるなら尚更です。

司会者:また、私たちは火星にそれを送ることができます、多くのロボットを火星に送り、必要な仕事をこなしてもらい、火星を居住可能な惑星にする助けとなります。

イーロン:すでに火星はロボットの惑星です、そこには探査車やヘリコプターのような多くのロボットがいます。

司会者:ロボットだけです。

エロン:はい、火星には全員ロボットです。私は、ヒューマノイドロボットの機会がこれまでで最大の機会だと考えています。なぜなら、もし仮に……少なくともヒューマノイドロボットと人間の比率は2対1であり、おそらく3対1になるでしょう。誰もがロボットを欲しがるでしょうし、目に見えないロボットたちは商品を生産したりサービスを提供したりしています。

司会者:それは汎用ロボットで、学習を通じて異なるタスクをこなすようになると思いますか?

エロン:はい、結局のところ、私たちは汎用型の生物だからです。ただ、私たちは肉でできているだけです。

司会者:そうですね、私たちは「肉体」の汎用型ロボットです。

エロン:私は自分の肉体ロボットを「操作」しています。ちなみに、Optimusを開発するにつれて、私たちがなぜこの形をしているのかについて多くのことを学んできました。例えば、なぜ私たちは5本の指を持っているのか、なぜ小指は人差し指より小さいのか。もちろん、私たちはなぜ親指が対向しているのか知っていますが、なぜ手の主要な筋肉が前腕にあるのかということも学びました。私たちの指の動きは主に前腕の筋肉によって制御されており、指の力の多くは前腕から来ています。指は腱——小さなロープのようなもの——によって操作されています。現在のOptimusの手の設計では、アクチュエーターは手にあり、自由度は11しかありませんので、人間の手のように器用ではありません。人間の手には約25の自由度(計算方法により異なります)があります。そして、手の力が十分ではないのは、アクチュエーターが手のサイズに収まる必要があるためです。次の世代のOptimusの手のプロトタイプでは、アクチュエーターが前腕に移され、ケーブルで指を操作する仕組みになっています。これにより、次の世代の手の設計では22の自由度があり、ほぼすべての人間が行えるタスクに対応できると考えています。

司会者:Xとテスラが一緒に提携して、いくつかのサービスを提供するかもしれないという噂があります。私の第一反応は、ロボットにGrokを搭載すれば、個性を持ち、音声や映像、画像を処理できるようになるのではないかということです。

エロン:はい、その通りです。