DeepSeekを理解するうえで“決定版”ともいえる動画が公開されました。レックス・フリードマン、ディラン・パテル(Semianalysis)、ネイサン・ランバード(Interconnects)の3名が、5時間にわたってDeepSeekを徹底的に議論しています。これまでで最も詳細にDeepSeekについて語った内容であり、一見の価値があります。以下まとめ
・DeepSeek R1はOpenAI o3-miniと同等の性能をベンチマークで示し、コストがさらに安いことやチェーン・オブ・ソート(思考過程)を表示できる点が特徴とされる
・o3-miniは推論表示を要約版として出力するが、DeepSeek R1は推論過程を完全に表示する
・R1はオープンウェイトであり、o3-miniはクローズドソースである
・実際に使ってみた感触ではo3-mini-highがR1よりも優れている側面もあるが、クロード(Claude)Sonnet 3.5がプログラミング用途には最適という話もあった
・高度なプログラミングにはo1 Proを使ってブレインストーミングする人もいるなど、それぞれのモデルに得意・不得意がある
・今後も米中双方を含むさまざまな企業から高性能の推論モデルが多数出てくる見込みで、コストの曲線はさらに下がり続ける
・⭐️DeepSeekのリリースは地政学的にも技術的にも重要な転機として5年後も語られる可能性が高い
・DeepSeek v3とDeepSeek R1は異なるポストトレーニングを経ており、v3は指示に従いやすいチャットモデル、R1は推論可視化と正解検証を重視するモデルとなっている
・R1は思考プロセスを表示(チェーン・オブ・ソートを開示)し、解答前に問題を分解する一連の過程が長文で出力される
・対照的に、一般的なチャットモデルは推論部分をユーザに見せず最終回答のみを提示する
・オープンウェイト(Open Weights)とはモデル重みが公開されダウンロード可能な形で提供されることで、誰でも自分の環境でモデルを実行できる
・オープンソースはさらにデータセットや訓練コードも含めて公開されるが、多くの企業モデルはそこまでは公開していない
・DeepSeekのライセンスはMITに近く商用利用も制限が少ないが、他のオープンモデルは使用制限がある場合も多い
・オープンウェイトのメリットはユーザのデータを外部に送らずにローカルで推論を実行できる点である
・DeepSeek v3は高性能なベースモデルで、その上にインストラクションチューニング(RLHF等)を行ったものがチャット版として公開されている
・DeepSeek R1はv3ベースに推論特化の新しい学習手法を加えており、数式やプログラミングのように検証が可能な領域で試行錯誤しながら正解に近づく仕組みが組み込まれている
・ポストトレーニングでは主にインストラクションチューニング、RLHF、推論強化学習(解が検証可能な領域に試行錯誤する)など複数の手法が用いられる
・DeepSeekは詳細な論文や技術レポートを公開しており、実装や学習プロセスの多くを具体的に示している
・OpenAIやMetaのLlamaと比較しても、DeepSeekは公開情報の豊富さやライセンスの自由度で注目を集めている
・DeepSeek v3はGPT-4、Llama 405Bなどと同等レベルの性能があり、Mixture of Experts(MoE)という手法の導入で学習や推論コストを下げている
・Mixture of Expertsは巨大モデルのパラメータ全部を常に使わず、タスクに応じた専門の一部パラメータのみを活性化することで効率化を図る
・DeepSeek v3は合計6000億以上のパラメータを持つが、推論時には約370億パラメータのみを使うため、リソース節約が可能になっている
・MLA(Multi Latent Attention)という新技術も導入され、CUDAレベルでの最適化も含めて非常に効率の高い学習が行われている
・こうした技術スタックによって、DeepSeekは大規模なモデルを低コストかつ高速に動かすことに成功している
・Transformerは注意機構(アテンション)と全結合のMLPを交互に積み重ねる構造で、Mixture of Experts(MoE)は主にこのMLP部分に適用される
・TransformerモデルではMLP部分が最もパラメータ数を多く占めるため、MoEを使うことで推論時も学習時もパラメータをすべて活性化せずに済み、大幅な効率化が可能となる
・深層学習は長年にわたりモデルが大規模化してきており、スケーリング則(bigger is better)が確認されているが、その「大きさ」にはいろいろな側面がある
・MoEを採用すると学習効率を大幅に上げられる可能性があり、実装次第では同等性能を得るのに必要な計算量を30%ほど削減できることもある
・しかしMoEを実装・運用するには高い複雑性が伴い、大規模モデルほどその恩恵は大きいが実装の難易度も上がる
・DeepSeek(DeepSeqとも表記)はMoEを極めて上手に実装しているとされ、Mixture of Expertsを古くから研究・活用してきている
・DeepSeekの「Multi Head Latent Attention(MLA)」はメモリ使用量削減を狙った仕組みで、Positional Embeddingの手法(RoPEなど)との組み合わせや低ランク近似など、多くの技術を複雑に実装している
・このような大規模モデルの効率的実装には、CUDAやNvidiaの通信ライブラリ(NCCL)を活用するが、DeepSeekはさらに低レイヤーのレベルで通信スケジューリングを最適化している
・NCCLはGPU間通信の標準ライブラリだが、DeepSeekはGPUコア(SM)のどれを計算に使い、どれを通信に使うかまで細かく制御することでさらなる高速化を実現している
・こうした低レベル最適化はモデルサイズやアーキテクチャに強く依存し、一般性は下がるものの、DeepSeekの環境では必要性から大きな成果につながったと考えられる
・多くの既存MoEモデルはエキスパート数が8や16で、そのうち2つ程度を活性化するが、DeepSeekは256のエキスパートから32を活性化するといった高いスパース化を行っている
・高いスパース化ではエキスパートの割り当てやGPUのロードバランスが極めて難しく、特定エキスパートに入力が集中すると他が遊んでしまう問題が生じるため、高度なルーティング制御が必要となる
・MoEではエキスパートの使用バランスを保つために補助損失(auxiliary loss)を用いることが多いが、DeepSeekは損失関数に頼らないパラメータ追加型のルーティングでエキスパートの負荷を調整している
・こうしたアーキテクチャ上の工夫は、各企業や研究機関でも研究されていると推測されるが、DeepSeekはそれを公開し、モデルや重みを公開している点が特徴的である
・スケーリング則や「The Bitter Lesson」は、人間による複雑な帰納バイアスよりも、大量の計算資源を投入して単純な学習や探索を行うアプローチが最終的に勝りやすいという考え方を示している
・MoEのような実装上の改良が「Bitter Lesson」の文脈でどこまで長期的に重要になるかは未知数だが、大規模計算をいかに効率よく回すかは当面の大きな焦点になっている
・高い汎用性をもつライブラリ(例:NCCL)は広範囲の状況で動くが最適化の余地が残り、DeepSeekのように特定アーキテクチャ向けに最適化したコードは高性能だが汎用性が下がる
・大規模学習を行うには、まず小規模の実験(アブレーションスタディ)で多数のハイパーパラメータや構成を試し、最後に巨大資源を投入する「YOLO run」を実行するスタイルが一般的
・「YOLO run」は実際に何百億円単位のコストがかかることもあり、学習途中の損失値の暴走(loss spike)や学習崩壊が起こると多大な損失につながるため、研究者は非常に神経を使う
・学習が停滞したように見えていても突然急激に性能が向上する(grokking現象)こともあり、損失曲線の監視は単純ではない
・データ中に「Microwave Gang」のようにアルファベットMばかりが連続する特殊なケースがあると、モデルの予測との乖離が大きく一時的に損失が暴騰するなど、実装以外にもデータ由来の問題がある
・学習中に損失が吹き飛んだ場合は、直前のチェックポイントに戻って学習を再開することが多いが、回復しない場合もあり、非常にコストがかかる
・全ての大手研究機関が大規模学習における失敗を経験しており、実験的要素を伴う以上、これは不可避である
・結果的に、こうした失敗の繰り返しから得られたノウハウと実装の積み重ねが、DeepSeekのような高性能モデルの開発につながっている
・大規模モデル開発には、理論的アイデアだけでなく、データ・実装・エンジニアリング・ハイパーパラメータといった複合的な最適化が必要であり、その小さな積み重ねが最終性能を大きく左右する
・訓練後の段階で作業するメリットとして、GPUのコストが低くなるためより多くのYOLO的なトライを可能にする
・将来的には変わる可能性があるとし、運の要素はスキルでもある
・一見幸運に見えても、実際はデータ改善などの局所的な試行錯誤の積み上げでモデルの性能が向上する面が大きい
・モデルがある領域で明らかに弱い場合に対処するローカルな改善を積み重ねることが重要
・巨大な探索空間のなかで限られた時間とリソースしかないため、リリーススケジュールに追われながらも効果的なアプローチを選択する必要がある
・2025年は各社がYOLO的な大規模学習を積極的に行う年になると指摘し、OpenAIの2022年時点での大胆な訓練投資が例になる
・OpenAIが2022年にまだ実績の少ないアーキテクチャであるMixture of Expertsを用い、限られたリソースをすべてGPT-4に投下したのは非常にリスキーだったが結果を出した
・DeepSeekはHigh Flyerというヘッジファンドに属しており、アルゴリズム取引にGPUを多用してきた歴史がある
・2021年時点でDeepSeek(High Flyer)は中国最大規模と称する1万枚のA100 GPUクラスターを所有していたと公表している
・輸出規制の議論が起きる以前から大量のGPUを保有していたため、中国国内にある程度の大規模学習が可能なリソースを確保していた
・DeepSeekの実際の保有GPUは5万枚程度に及ぶと分析しており、これはファンドのクオンツ業務や研究、言語モデルなど多岐に活用されている可能性がある
・DeepSeekは最新モデルV3の事前学習にH800を2000枚使用したと発表したが、これは研究や小規模実験を含む全体のGPU使用量を反映するものではない
・H800はH100の中国向け制限版であり、演算性能はほぼ同じだがインターコネクト帯域が制限されている
・実際の大規模学習では事前学習以外の実験やアブレーションにも同程度のGPUリソースが使われることが多い
・Hopperアーキテクチャ(H100とH800)について、政府の輸出規制について、当初は演算性能とインターコネクト帯域の2つの要件で制限がかけられたが、後に演算性能を主軸とした制限に変わり、NVIDIAはそれに合わせたチップを設計していると述べた
・最新のH20はインターコネクト帯域はH100と同等以上だが演算性能が落とされているなど、輸出規制を回避する形で改良されている
・Anthropic CEOのDario Amodeiの輸出規制に関するブログをに関して、強力なAIが軍事的な優位をもたらす可能性からアメリカ政府は中国を遅らせたいのではないか
・⭐️現実的には中国が大規模学習を完全に止められるわけではないが、推論(インファレンス)などの大規模利用を制限することは可能かもしれない
・強力なAIによる経済成長や軍事転用は大規模な推論に依存するため、アメリカは計算資源をより豊富に使える状況に留まることで優位性を保てる
・今後のAIにおいては推論時の高い計算コストを要する「推論段階での高度な推論モデル」が鍵になる
・OpenAIのo3モデルの例として、ARCテストを解く際に1問あたり数ドルから数十ドルの推論コストがかかるため、大規模GPUが必須
・このように複雑な推論を実現するモデルが増えれば推論のためのGPUリソースが大量に必要になり、それが中国に対する輸出規制の狙いと合致する
・Darioの言う「スーパー・パワフルAI」(AGIよりも軍事的優位性をもたらすレベル)を使えば世界的な影響力が大きく変わる
・⭐️言語モデルですでに汎用知能と言える部分があるが、今後は自律的に動くエージェント型AIが求める推論コストが飛躍的に大きくなる
・⭐️輸出規制は中国のAI大規模利用を抑止し、アメリカの優位を保つ
・DeepSeekのCEOであるリャンは、中国でオープンなAIエコシステムを構築することに意欲を示しており、中国がソフトウェアエコシステムで先導しなかった歴史を挽回したいというAGI志向の考えを持っている
・レックスがリャンが英語メディアでインタビューをする可能性について尋ねたが、実際にはまだ実現していない
・DeepSeekは、中国内での大規模GPUリソースを背景に、オープンかつ強力な言語モデルを育てようとしているが、アメリカ側の輸出規制による制限が今後の推論リソースにどのように影響するかが注目点となる
・Darioは2026年までに強力なAI(agenticな能力を持ち、安全保障上の脅威となるレベル)が出現する可能性を示唆している
・Nathanは具体的な能力の到達時期を予測するのは難しいが、今後数年で大きな進歩が続くと考えている
・⭐️DeepseekがR1を公開したことにより、従来のChatGPTのような漸進的進歩の延長だけでなく、新たなモデル改変による急激な進歩が起こり得ることを示唆しており、それが不安を助長している
・⭐️OpenAIが提供するオペレータモデルやAnthropicのClaudeのようなエージェント的アプローチはまだ十分に完成していないが、今後のブレークスルーによって大きく進化する可能性がある
・⭐️Nathan自身はDarioたちの短期的な予測よりも少し遅い2030年前後をAGIの可能性として考えている
・Dylanは「すでに政治・社会・軍事に対してAIが深刻な影響を与えつつある」という視点を持ち、例えばインドやパキスタンの選挙で有権者へのAI音声コールが行われるなど、世界で起きている事例を挙げている
・AIによる大規模な誤情報拡散は想定よりまだ顕在化していないという研究結果もあるが、音声や映像など測定の難しい領域での利用は今後増える可能性がある
・⭐️軍事・防衛の観点では、大規模なドローンの自律運用などについて、実際には人間のオペレータが操縦する方が現状は優位だが、2030年前後までに大きく変わる可能性がある
・⭐️サイバー攻撃や社会インフラへの攻撃(電力網を停止させる等)が行われれば、数日単位でも社会混乱が避けられず、AIがその攻撃を支援できる段階に入ると世界の景色は大きく変わる
・AIと地政学の関係では、米国が半導体輸出規制(特に対中国)を強化している。これは軍事やAI開発での優位性を維持する目的があり、AIの進化に合わせて重要度を増している
・中国は産業規模・人材数ともに巨大であるため、もし中国政府が「スケール重視(scale pilled)」を本格的に打ち出せば、米国より早く大規模なAIの実用化に踏み切れる潜在力がある
・⭐️現状では中国が半導体製造装置(特にEUVリソグラフィ装置など)を自力で完全に開発・量産できない点が弱みだが、補助金や国家的投資で急速に追いつく可能性がある
・長期的視点だけを考えると、米国による対中輸出規制は中国の技術自立化を促進し、最終的には中国側が優位になるリスクがある
・⭐️ただし、AIが5年から10年以内に大きな軍事的・政治的インパクトをもたらすと考えるなら、短期的なアドバンテージを確保するために現行の規制は米国にメリットがあるとも言える
・⭐️一方で規制により中国が台湾に軍事的行動を起こすリスクも指摘されている。台湾のTSMCが最先端半導体製造で世界をリードしているからである(💭他の資料を読んでいても、DeepSeekの登場を契機に米中台の地政学的リスクが一気に顕在化したと感じる。)
・台湾TSMCは「ファウンドリ専業」というビジネスモデルで世界各国・各企業のチップを受託製造し、莫大な投資を継続している。最先端のプロセスを実現するための製造装置や施設には毎回数十億~数百億ドル規模のコストがかかる
・かつてはAMDやIBMなど、多くの企業が自社でチップを設計・製造していたが、製造のコストと技術的難易度が跳ね上がった結果、TSMCに製造を委託する流れが加速した
・Nvidiaは「ファウンドリ時代」に誕生し、当初からTSMCと提携して自社のGPUを製造してきた代表例である
・IntelやSamsungでさえも最先端プロセスのチップ生産でつまずき、TSMCに生産を依頼するケースが増えている
・米国はTSMCに米国内で最新ファブを建設させる方向を進めているが、製造技術やサプライチェーンの大半は台湾にあり、地政学的リスクが高まっている
・現在の世界の半導体・AI開発のパワーバランスは、TSMCのプロセス技術とファウンドリ能力、そして中国の巨大な産業・資金力、米国の規制と軍事・投資の動向が複雑に絡み合っている
・ファウンドリモデルが成功している背景として、ファブ(工場)の建設費用が莫大であり、先端的な半導体プロセスの研究開発が非常に困難であるため、大規模生産によるコスト回収(スケールメリット)が重要になっている
・かつて多くの企業は自前の垂直統合(独自ファブでの製造)を行っていたが、プロセスやチップが高度化・多様化する中で設備投資と開発リスクが増し、専業ファウンドリに依存する方向にシフトしている
・ムーアの法則やDennard Scalingが限界に近づき、チップの高性能化が製造技術だけでは達成しにくくなった結果、アーキテクチャ面での革新や多種多様な用途に応じたチップ設計が進んでいる
・Googleのように多種多様な用途(YouTube向け専用チップ、TPU、Pixel用チップなど)でカスタマイズされたチップを多数使う例が一般化し、大量のチップを製造できるファウンドリが必要になっている
・車載用でも膨大なチップが使われ、ドアハンドルにまで複数のチップが入るなど、需要の拡大と多様化が進んでいる
・ファブの建設コストは指数関数的に上昇しており、小規模プレイヤーでは生産量が不足して投資を回収できず、結果的に生き残れない
・製造装置やプロセスのわずかなミスや不具合が致命的な収率低下を招くため、長期にわたって先端プロセスを安定稼働できる技術力や資本力を持つ企業が限られる
・Intelはかつて20年以上にわたり先端プロセスをリードしていたが、経営判断ミス(iPhoneへの供給拒否など)や製造プロセスでの遅れ、社内文化などが原因で遅れを取るようになった
・AMDは自社ファブを手放してGlobalFoundriesを設立し、設計に専念することで再興に成功した例がある
・ファウンドリ企業の中でもTSMCは顧客対応とプロセス技術に特化し、世界最先端の大量生産能力を備えることで多数の企業の依存先となっている
・TSMCは台湾を拠点としており、高い技術力を持つ人材がトップ層から集中する文化、長時間労働や地震時の即時対応などのハードワークが常態化している点などが強みとなっている
・アメリカでもIntelなどが一時は先端製造でリードしていたが、企業文化の問題や顧客対応力の不足などでTSMCに追い越された
・TSMCやSamsung、Intelなどが行う先端プロセスのR&Dは、台湾の新竹、アメリカのオレゴン州ヒルズボロ、韓国の平沢など限られた地域で集中しており、量産拠点が別の地域に広がっていてもR&D拠点への依存が強い
・アメリカではCHIPS法などで数百億ドル規模の支援策を打ち出しているが、ファブ投資全体から見れば十分とは言えず、完全な国内生産回帰には長い時間と莫大な資金が必要
・他国では中国が大規模な補助金を投じ、先端プロセスはまだ遅れがあるものの、トレーリングエッジ(成熟プロセス)を中心に多くのファウンドリを育成している
・中国は米国の輸出規制によって先端プロセスへのアクセスが制限される一方、電気自動車用などの幅広いアナログ・パワー系ICを国内生産化して依存度を下げる方向にシフトしている
・⭐️今後、米中関係はさらなる分断の方向へ進む可能性が高く、互いに相手国からの技術や製品の依存を減らそうとする動きが続くと見られる
・⭐️グローバル覇権の交代期には歴史的に紛争が起こりやすく、一極支配から多極化へ進む際は地政学的リスクが高まる
・⭐️TSMCの工場を海外に建てても、R&Dセンターが台湾などに集中しているため、台湾での地政学リスクが世界の半導体供給に直接影響を及ぼす
・文化的背景として、台湾では最優秀層が半導体企業に集まり、真夜中の地震でも自発的にファブに駆けつけるほどの労働意識がある一方、アメリカではトップ人材がIT企業など他の業界へ流れやすい傾向がある
・アメリカが先端製造を国内回帰する場合、移民を受け入れて人材を確保する手段もあるが、政治的に議論が難航している
・⭐️トランプ前大統領が台湾への関税を示唆するなど、米国内へのファブ誘致を促す動きもあるが、実際の効果は未知数であり、コスト面や技術面での課題は依然大きい
・⭐️総合的に見て、半導体産業の将来は米中対立と地政学リスクの高まりが続く可能性が強く、TSMCやSamsung、Intelなど、限られた企業・地域に大きく依存する構図が当面は続くと考えられる
・AIの国際競争は代理戦争のような形をとる可能性がある
・世界情勢の不安定化はすでに進んでおり、長期的な平和が続くかは不透明である
・米国はAIをリードすることで世界的ヘゲモニーを維持しようとしており、それが平和をもたらすかは疑問もある
・中国側が不利になる可能性を指摘する声もあり、世界規模で見れば負の影響が出るとの見方がある
・GPUのハードウェア仕様は大きく「演算性能(FLOPS)」「メモリ帯域幅・容量」「チップ間インターコネクト」の3要素に分類される
・米国の輸出規制では当初FLOPSとインターコネクト帯域を規制対象にしたが、その後FLOPSのみを規制対象に変更した
・NVIDIAが中国向けに出しているH20(H800やB20などの後継含む)はFLOPSが制限されている一方で、メモリ帯域幅や容量は強化されている
・⭐️H20は推論(reasoning)用途には有利だとされ、米国側はこれをさらに規制する動きがあるとの見方がある
・Transformerの仕組みでは「アテンション機構」が重要で、Q(クエリ)・K(キー)・V(バリュー)の3つの行列が計算される
・自己回帰型の言語モデルは1トークン生成ごとに前のトークン情報をKVキャッシュとして保持し、次の生成で再利用する
・入力トークンの処理は並列化可能なため比較的コストが低く、出力トークンは逐次処理なのでコストが高い
・OpenAIが入力トークンより出力トークンの課金を高く設定しているのは並列化の可否の違いに起因する
・長いコンテキスト(例:本の全文など)を扱うとアテンションの計算量は二乗に増え、KVキャッシュのメモリ使用量も急増する
・新たな推論用途(reasoning, chain-of-thought, エージェントなど)では生成されるトークンが非常に多いため、メモリ負荷が大きくなる
・DeepSeekは独自アテンション方式(MLA: multi-head latent attention)などによりメモリ使用量を大幅に削減している
・DeepSeek R1のAPIは高性能かつ安価で、OpenAIのo1より大幅に低コスト(27倍近い差)が報告されている
・⭐️OpenAIは推論サービスで75%以上の高いマージンを得ているが、研究開発コストを補うには十分でないため資金調達も続けている
・DeepSeek R1のモデル重みはオープン化されており、他社も提供を試みているが多くはコストやスループットの問題が大きい
・⭐️理由としては、大規模推論環境の構築やKVキャッシュの管理などが難しく、OpenAIやDeepSeekほどの効率化ができていないためだ
・⭐️結果としてDeepSeek自身がR1の商用APIを最も低価格・高性能で提供できている点が注目されている
・トレーニングコストだけでなく推論コストの削減技術が今後の競争力を左右する
・⭐️DeepSeekはGPUリソース不足のため、ユーザー向けのモデル提供が制限されている
・⭐️OpenAIはMicrosoftと連携し大規模GPUを保有しており、DeepSeekにはそのような大規模運用は難しい
・⭐️DeepSeekはAPI提供で利益を得ているかは不明であり、実際には収益化がうまく進んでいない可能性がある
・DeepSeekの推論コストが他社と比べて格段に安価なのは、モデルアーキテクチャやMoE構造、独自の効率化が要因と考えられる
・⭐️DeepSeekを支援しているヘッジファンドが資金源となっており、中国政府の直接的な補助金は受けていないと推測される
・DeepSeekのCEOは独自の考え方を持ち、政府寄りではない姿勢が見られるため、中国政府との密接な関係は薄いと見られている
・DeepSeekはこれまで大きな資金調達を行っておらず、主にヘッジファンド側の資金でモデル開発を続けている
・⭐️リリースのタイミングに関する陰謀説(NVIDIA株やアメリカのAI企業株を空売りし、大きなリリースで市場を動かす等)はあまり根拠がないと見られている
・⭐️DeepSeekはリリースを素早く行っており、Anthropicなどの企業が慎重な安全性チェックに時間をかけるのと対照的である
・⭐️Anthropicは安全性・チェーン・オブ・ソート公開のリスクを重視しており、モデル完成からリリースまで数か月の遅れがあることが指摘されている
・⭐️サンフランシスコ界隈では、AnthropicがOpenAIより性能が高いモデルを開発済みだが、安全性上の理由でリリースしていないという噂がある
・DeepSeekは一方で「危険だからと公開を遅らせる」というより「早く出す」方針をとっており、安全性基準は他社より低い可能性がある
・⭐️このような安全性の差はAIレースにおいて「ソビエトとアメリカの宇宙開発競争」に例えられ、結果として米国企業の安全基準も引き下げられる圧力がかかる可能性がある (💭ありそう)
・オープンソースモデルが世界的にスタンダード化していくとき、国や企業による検閲や誘導(政治的・文化的バイアス等)が組み込まれるリスクがある
・⭐️オープンソースAIであっても、隠れたバックドアや文化的・政治的誘導が潜む可能性が指摘されている
・⭐️「超人的な説得力(superhuman persuasion)」が「超人的な知性(superintelligence)」より先に実現する危険があり、意図的に人々の思考を誘導することが技術的には可能になる
・すでにレコメンデーションシステムはユーザーの注意を奪う方向に特化しており、将来的には対話型AIが同様の手法でユーザーの時間を奪い、思考に影響を与える懸念がある
・アダルト産業は常に新技術を早期採用する傾向があり、生成系AIや対話ボットが既に取り入れられている
・現在の多くのモデルでは、「危険ワードに対して回答拒否する」ような簡易的なフィルタリングが行われているが、プレトレーニング時に知識が含まれてしまえば完全に削除は困難
・GeminiのBlack Nazi事件(画像生成における自主規制)は「アラインメント」や「検閲」の代表例として挙げられ、政治的・文化的に不都合な事柄を事後的に調整している様子が見られる
・天安門事件に関する事実は中国製モデルで答えがブロックされるなど、各国や企業によって特定の検閲がかかる現象が既にある
・⭐️技術的にはプレトレーニングデータでの情報削除、RLHFによる後処理、追加のシステムプロンプトなど、複数の段階で検閲や改変が起こる可能性がある
・⭐️事実をモデルから「削除」するにはプレトレーニング段階で完全に除外する必要があるが、インターネット上の情報を丸ごと排除するのは実質的に不可能に近い
・SNSやネット断ちによって人間が「情報への依存度」を下げられることを実感する一方、AIがさらに進歩すれば、人々の思考を誘導する力がより強くなると危惧されている
・⭐️最終的に、オープンソース・クローズドソースにかかわらず、AIモデルの開発・公開が国際競争と深く結びつき、安全性とリリースのスピードをめぐるジレンマが高まっている
・検閲の難しさとして、天安門事件のような特定単語を直接フィルタリングしても、言い換えや暗号化などに対応しづらい問題が指摘されている
・インターネット自体がそもそも若年層や富裕層などが多く参加している傾向から、わずかに左寄りのバイアスを持っている可能性があるという意見がある
・大規模言語モデルのトレーニングでは、特定の政治的・思想的傾向を除去するには非常に多大な労力が必要になる
・各社はRLHF(人間のフィードバックによる強化学習)などの技術を使い、最終的なモデルを制御・安全化しているが、それでも十分とは言えない
・⭐️Elon Muskが開発を進めるGrokのように、モデルに過度な検閲を施さず、自由度を高めようとする取り組みもあるが、学習データに偏りが入り込むのは避けがたい
・モデルの動作制御には大きく分けて、事前学習(pre training)と事後学習(post training)がある
・事前学習ではウェブ上の莫大なデータを一括して学習させるため、特定のバイアスや不適切な内容は消しにくい
・事後学習にはRLHFやシステムプロンプトの書き換え(prompt rewriting)などがあり、モデルの最終的な応答をコントロールするために使われる
・Llama 2チャットモデルは過度な安全強化が原因で「Pythonプロセスをkillする方法」を聞いたときに、殺人関連の質問だと判断して拒否するような誤動作があった
・これによりRLHFがモデルを“馬鹿にする”という批判が出たが、実際にはRLHFには性能向上のメリットも大きい
・RLHFによってコードや数学のタスクなどが大幅に性能向上する事例もあり、各社が大規模に活用している
・Googleが内部で行ったGeminiモデルのサービング時に、システムプロンプトの書き換えが原因で誤った応答が返る事例があり、組織的なエラーと考えられている
↓に続きます
(1/2)
(続き)
・人間によるアノテーションデータは、以前は数学やコードの分野で詳細な解答例を作るのに使われてきたが、今ではモデルのほうが優れた回答を作れる場合が増えている
・それでも人間による比較評価(ペアワイズ比較)は依然として重要で、RLHFはそうした人間の好みや基準を取り入れながらモデルを最終調整している
・チェーン・オブ・ソート(chain of thought)による推論プロセスが注目されており、Deep SeekやR1などの研究で強化学習を活用することで新たな推論様式が自発的に生まれる事例が報告されている
・人間が推論プロセスを一つ一つ書き与えなくても、最終的に答えを検証する仕組み(報酬)さえあればモデルが自力で推論過程を発見できるという点はAlphaGoやAlphaZeroの自己対戦を思い起こさせる
・⭐️AlphaGoが人間の棋譜(模倣学習)を起点にしていたのに対し、AlphaZeroでは人間のデータを使用せず、より高いパフォーマンスを得た例は「ビター・レッスン(Bitter Lesson)」の考え方と一致する
・言語モデルでも、自己回帰的に複数の解を試し、正解に近い経路を残す強化学習的手法が効果を上げ、思考プロセスが emergent(自発的に発現)する可能性がある
・⭐️特にコードや数学のように答えが厳密に検証できるタスクでは、生成された解答をテストして正解を選ぶことが可能で、その繰り返しによってモデルが推論力を高めていく
・⭐️今後はウェブ操作やロボット制御といった「行動を無数に試して正解を得られる」領域で自己学習が進むと、予想外の学習効果が出るかもしれない
・⭐️具体例として、モデルがウェブ上でアカウントを作成し、何度も失敗しながらも最終的に多くのフォロワーを得るなど、金銭的あるいは社会的に検証可能な目標を達成する可能性がある
・⭐️こうした環境はオンラインでもロボットでも「無限のプレイグラウンド」となり、そこから得られる報酬で学習したモデルが、従来の事前学習を超える知能に到達するシナリオが議論されている
・ただし非検証的なタスク(例: 単に雑談をするなど)では、チェーン・オブ・ソートを強化学習に活用する仕組みがまだ十分確立していない
・一方、数学やコードの分野ではすでに「大半が解かれてしまった」ような状況で、より先鋭的な問題領域(大学高学年レベル以上など)でのみ未解決部分が残っている
・このように、RLHFやchain of thoughtによって推論力を高めるアプローチは今後さらに拡大すると考えられている
・OpenAIの新モデルo3-miniがリリースされ、o1やR1など既存のモデルとの違いが議論された
・⭐️DeepSeekが公開したR1のような「推論特化型の追加訓練」を行うモデルが注目されており、数学やコードへの特化がどの程度他分野に汎化するかが大きな疑問点として挙げられた(💭Reasoningが検証が難しい分野にまで汎化するかどうかに関しては、専門家の中でも意見が割れているように見える)
・⭐️数学やコード能力を強化したモデルは他の分野での表現力がやや弱まる傾向があり、その「生煮え」感(完全には調整されていない感じ)も含めてモデルの評価が行われている
・Gemini Flash 2.0とDeepSeek-R1、OpenAI o1-proなどはチェーン・オブ・ソート(思考の過程を表示する形式)を用い、数理的推論力を高めているが、出力の流暢さや柔軟性に差異がある
・モンテカルロ木探索のような検索的アプローチが推論プロセスに導入される可能性が示唆され、実際に並列サンプリングを行い正解を選ぶ仕組みが使われている事例もある
・⭐️DeepSeek R1はGPT3並のモデルを数百万ドル程度で作ったと公表され、巨大なモデル開発コストに対する認識が揺らいだが、研究費や人件費、推論コストなどは含まれていないため単純比較は困難とされた
・GPT3から始まった推論コストの大幅な低下トレンドが加速しており、数年で1トークンあたりの価格が数十ドルから数セント台にまで落ちてきた例が提示された
・⭐️OpenAIのo1 Proは月額200ドルで提供されており、単独では採算が合わない可能性が指摘されつつも、今後の大規模展開を見据えた試みと見られている
・推論時の並列実行(多数回サンプリング)による性能向上は計算資源を大量に消費するが、ハードウェアとソフトウェアの進歩により将来的にはコストが低下するだろうと予測された
・⭐️大規模なAI訓練・推論に対する需要が増えることでGPU需要は依然として高く、Nvidiaの株価変動は短期的なセンチメントの影響も大きいが、本質的にはJevonのパラドックス(コストが下がると需要が増える)のようにより多くのGPUが必要になると考えられている
・⭐️Blackwellなど次世代GPUに関する噂や「スケーリングが頭打ち」という議論がある一方で、o1やR1の登場により依然としてモデル性能は大きく向上すると見る専門家も多い
・⭐️Nvidia H100やH200は需要が高いためクラウド上での確保が難しくなっており、大規模デモのためにGPUを手配するのも困難なケースがある
・GPT4も当初100万トークンあたり約60ドルだったが、すでに数ドルまでコストが下がっており、今後さらに安価になる可能性がある
・モデルの思考過程を可視化するチェーン・オブ・ソートには「ステップごとの推論」を見られる面白さがあるが、一方でプライバシーやセキュリティ上の懸念も存在するとされる
・例として「人間の新奇な本質についてのアイデア」を出力させたとき、DeepSeek R1は「人間はお金や法律といった抽象的存在をゲーム化することで利己的欲求を社会全体の利益に転換している」という洞察を示した
・Gemini Flash 2.0は「人間は自己家畜化した類人猿である」という視点を提示し、社会的・認知的能力をそこから説明しようとする新奇なストーリーを展開した
・OpenAI o1 Proはより洗練され多様な分野に対応可能な回答を出せるが、場合によってはR1などの方が数理に特化した厳密な回答をすることもある
・o3-miniは高速で汎用的な回答が得意だが、哲学的・創造的問いへの応答の深みではo1 ProやR1に及ばないケースも見られる
・⭐️Nvidia株価の動きについて、中国側の「不正行為」疑惑などが影響した可能性があるとの指摘があった
・⭐️AIの進歩が急加速するほど、Nvidiaの市場規模が拡大するとされ、現状ではNvidiaが最も信頼されるGPU企業と見られている
・⭐️Nvidiaの競合他社が新たに登場したわけではなく、中国企業もNvidia製品を大量に使用している
・⭐️ByteDance(TikTok運営企業)は中国最大のNvidia顧客の一つであり、GoogleやOracleなど世界中のクラウド企業からもGPUを大量にレンタルしている
・⭐️GPU密輸の規模は、小口の例として個人がサーバを米国から中国へ手荷物で持ち込むケースがあり、大口としてはシンガポールやマレーシアの企業経由でルートを構築する例があるとされる
・バイデン政権とトランプ政権が導入した「AI拡散(拡大)制限ルール」により、中国企業が大規模なGPUクラスターを合法的にレンタル・購入することは制限されている
・具体的には、2,000GPUを超えるクラスターや1,500GPUを超える出荷が制限対象で、これにより中国側が大規模モデルをトレーニング・推論するハードルが高くなっている
・巨大言語モデルを提供する中国企業(DeepSeekなど)は、推論用のGPU不足でユーザーに十分なサービスを提供できない状態が見られ、モデル性能に比べ推論処理が追いつかない問題がある
・⭐️米国企業によるGPU提供制限と、密輸などの迂回ルートを踏まえると、中国が大規模モデルを維持・拡大するのは難しくなる可能性がある
・大規模モデルの開発手法として、他社の強力なモデル出力を学習データとして利用する「蒸留(ディスティレーション)」が一般的に行われている
・OpenAIのChatGPT出力を無断で学習データに使う行為は、OpenAIの利用規約(競合製品の開発禁止)に抵触する恐れがあり、倫理的・法的に議論の的になっている
・同時に、AIがインターネット上の膨大な著作物を学習データとして使用している点についても、権利関係・利用許諾の問題が各国で議論されている
・⭐️日本では、学習目的でのデータ利用について著作権の例外規定があり、AI開発に有利とされる一面がある
・産業スパイや情報流出に関しては、企業の人材引き抜きやパーティなどでの口頭情報共有が大きな要因となるとされ、技術的な機密保持は難しいと指摘されている
・ハニートラップなどによる産業スパイ行為も取り沙汰されており、AI分野のエンジニアが標的になりやすい可能性がある
・⭐️大手企業のAI用メガクラスター(巨大GPUクラスター)の建設が各地で進められており、データセンターの電力消費は従来の2~3%から10%近くにまで拡大する見込みがある
・Metaなども大規模なデータセンター増設を進めており、今後の推論需要の急増に対応しようとしている
・⭐️大規模化が進むにつれて、中国が手に入れられるGPU数との格差が顕著になり、世界的なAI開発レースでの不均衡が生じる可能性がある
・⭐️DeepSeekのような大規模モデルを持つ中国企業も、インフラ不足で推論提供に支障をきたす一方、海外のクラウド経由でのGPU調達には制限がかかっている
・OpenAIなどの先進モデルを参考にして効率化を図る中国企業の存在がある一方、米国側は規約や輸出規制を強化している
・蒸留や学習に用いるデータの正当性やライセンス問題は今後さらに大きな論点となる見通しがあり、各国の法整備や国際的な協定の動きが注目されている
・クラスターとは、大量のGPUなどをまとめて配置し、高速なネットワークで接続してAIの訓練や推論を行うための大規模データセンターを指す
・⭐️従来のデータセンターはウェブ検索や広告配信など分散的に処理する用途が中心だったが、大規模言語モデルなどの訓練と推論が加わり、より密に接続されたGPUクラスタが必要になっている
・⭐️AIの推論(インファレンス)は多くの場所に点在するGPUで行うが、巨大モデルの訓練には大規模なクラスタを一箇所に集約する必要がある
・AlexNetでGPUが使われ始めた当初は数枚のGPUでの訓練が画期的だったが、GPT-3やGPT-4では何万ものGPUが投入されるようになり、規模が飛躍的に拡大している
・GPT-4の訓練には約2万枚のA100 GPUが使われ、推定で15~20メガワットの電力を要したが、最新ではそれを上回る大規模クラスタが続々と登場している
・MetaやOpenAIは数万~10万規模のGPUを使い、推定100メガワット超の電力を要するトレーニングクラスターを運用している
・⭐️イーロン・マスクのXAIはメンフィスで工場跡を買い取り、20万枚のGPUを配置する世界最大規模のクラスタを構築している
・⭐️その施設では発電所を増強し、天然ガスを直接利用した発電やテスラの大容量バッテリーシステムなどを導入して膨大な電力を賄っている
・メガクラスター構築には電力・熱・ネットワークの3要素が大きな課題であり、特に電力と冷却をどう確保するかが重要になっている
・⭐️冷却方式は従来の空冷から水冷に移行しており、イーロンのメンフィス施設では大規模な水冷システムと外部に並ぶ巨大なチラー装置でGPUを冷却している
・⭐️電力需要は各社がギガワット(数千メガワット)規模のデータセンターを目指すレベルにまで達しており、核発電所レベルの発電能力を要する事例もある
・⭐️グリッドからの送電よりも、近くに直接発電所を建設して供給する方が効率的な場合も多く、Metaはルイジアナで天然ガス発電所を、OpenAIはテキサスで大規模施設を計画している
・⭐️再生可能エネルギーや原子力発電も候補だが、建設に時間がかかるため、当面は天然ガスなどの火力発電が主流になっている(💭SMRがよく話題になるが、AGIが早ければ2026年~2027年にも誕生すると言われていることを考えると、そこには間に合わなそうである)
・⭐️環境への影響や持続可能性の懸念はあるものの、AI競争においては電力を確保することが最優先と考える動きが強い
・⭐️クラスタの電力使用にはピークやスパイクがあり、GPUの訓練ステップ間の勾配同期のタイミングで消費電力が大きく変動するため、電力インフラとの連携が難しい
・MetaのPyTorchには“Pytorch power plant no blowup”というオプションがあり、同期時の電力スパイクを緩和する仕組みが追加されている
・⭐️こうしたクラスタの拡大競争は「誰が最大のクラスタを持つか」という話題になりがちで、現在単一拠点最大はXAIの20万GPU規模が最上位とされている
・⭐️AmazonとAnthropicはTrainium 2を40万~50万規模導入するとされ、MetaやOpenAIもさらに数十万GPU規模に拡張を進めており、今後は50万~70万GPU級のクラスタが出現すると見込まれている
・⭐️イーロン・マスクは将来的に100万GPUクラスタの可能性を示唆しており、許認可上の情報やバッテリーパックの導入計画から見ても拡張の余地は大きい
・⭐️巨大クラスタの用途は従来の「前処理のためのプレトレーニング」だけではなく、自己対話型の環境や検証可能タスクでモデルを継続的に学習させる「ポストトレーニング」が主要な計算消費源になると考えられている
・⭐️ポストトレーニングとしては自己対話やシミュレーション、ロボット操作の仮想環境、検証可能な数学・プログラミングなどで膨大なフロップスを費やすため、プレトレーニングよりはるかに大きな計算リソースを使う可能性がある
・⭐️大規模モデルのコンテキスト長が伸びると推論時や学習時の負荷が増し、フロップスの効率も下がる面があるため、ますますハードウェアとソフトウェア両面での最適化が必要になる
・⭐️これらの要素が相まって、今後もクラスタの規模は加速度的に拡大していき、電力や冷却、ネットワークをめぐる技術革新と競争が続くと見られている
・NvidiaがAI向けハードウェアの中心的存在になっている
・Googleは自社のTPUを保有し、データセンターを複数拠点にわたって大規模に展開している
・Googleの最大クラスターは物理的に分散しているが、光ファイバーで高帯域幅接続されている
・⭐️Elon Muskの単一拠点に全てのGPUを集約する方式とは異なり、Googleは複数サイトを連携させる形で世界最大規模のクラスターを持つ
・⭐️Googleは検索やYouTube、広告など自社の巨大サービス向けにTPUを活用し、ハードウェアを外部販売する文化があまりない
・⭐️TPUの設計やソフトウェアスタックはGoogle内部向けに最適化されており、外部一般ユーザー向けには十分公開・整備されていない
・⭐️Google CloudとTPUのハードウェア開発チーム、DeepMind、検索チームなどは別組織で動いており、統合されていない
・⭐️GoogleがAIハードウェアで積極的に商業化しない背景には、検索収益の規模が巨大で、追加の収益化に優先順位を置いていないことがある
・Googleの内部ではJAXやXLAといった優れたソフトウェアスタックが存在するが、外部には限定的にしか公開されていない
・NvidiaはCUDAやソフトウェアライブラリの整備などが充実しており、ハードとソフトを一体で外部顧客向けに提供する文化をもつ
・⭐️AMDのGPUはハードウェア性能は良い点もあるが、ソフトウェア面が弱く、サポートやバグ対応などで大きな差がある
・Intelはプロセス技術でTSMCに抜かれ、モバイル分野にも乗り遅れ、AI向けの有力シリコンを持てずに苦戦している
・⭐️TSMC、Samsung、Intelの3社のみが最先端の半導体開発のR&Dを担えるが、SamsungとIntelが遅れを取っている
・AWSがクラウド市場で圧倒的な地位を築いた理由には、先行者優位だけでなく中小顧客にも対応してきた点がある
・Microsoft Azureは市場2位で、Google Cloudは3位だが、MicrosoftはOffice 365なども含めた数字で上乗せされているため、実際の差は大きい
・AWSはAmazon全体の利益の大半を生み出しており、物流倉庫などのコマース事業は低利益だが、将来的に価格を上げる余地を残している
・OpenAIやAnthropicなどのAIスタートアップは研究開発と巨大な学習コストに資金を投じており、現時点では大きな利益は出ていない
・OpenAIはGPT-4などのAPI利用料から収益を得つつも、新モデル研究に莫大な資金を投入しており、継続的に資金調達を行っている
・MetaはレコメンデーションなどのAIを使い莫大な収益を得ているが、LLM関連ではまだ大きな直接収益には結びついていない
・Googleも検索など従来型AIで収益を得ているが、Geminiなど大規模言語モデルが直接大きな収益を生み出すかは未知数
・MicrosoftはAIの研究・提供に莫大な資金を投じているが、減価償却などの会計上は黒字でも、実質的には高いコストを背負っている
・⭐️長期的には「知能を安価に提供する」ことで大きな経済的価値が生まれる可能性があるため、投資が続くと見込まれている
・Elon MuskはXAIなどでAIモデルを作り、Teslaのロボット「Optimus」を含め、家庭向けロボット市場にも大きな可能性を見ている
・⭐️ロボットが人間の労働力を代替するならば、数兆ドル規模の市場が生まれるという試算もある
・AIレースではモデルやインフラなど複数のレイヤーで競争が進行しており、勝者が1社に限定されることはないという見方が強い
・最終的にAGIがどう実現されるかは不明で、複数企業が同時に異なる形で高性能AIを進める状況が続く可能性がある
・⭐️OpenAIやAnthropicのような専業AI企業が、GoogleやMeta、X(旧Twitter)といった大手プラットフォーム企業に比べて不利な立場にある可能性がある
・大手プラットフォーム企業は既存の多角的なサービスや膨大なユーザーデータ、広告収益などを持っているため、AI開発においてもコストや実装面で有利になりうる
・⭐️一方でOpenAIやAnthropicは最先端モデルの開発を続けているが、もしモデルがコモディティ化し、たとえばLlamaなどのオープンソース系モデルが安価で使えるようになれば、専業AI企業は存在感を失う可能性がある(💭ダリオが別のところで、大量のチップを確保できるのは数社だけになりそれがmoatになると反論してた気がする)
・⭐️ChatGPTのようなチャットアプリ単体の収益性や利用場面には限界があり、今後は広告モデルの導入や、エージェント的な高度タスク処理への展開が重要になるかもしれない
・広告モデルに関しては、AIの出力内にどう広告を組み込むかが明確になっておらず、Googleの検索連動型広告のように大きな収益源となるかは不透明だ
・⭐️一方でLLMがさらに安価に提供できるようになると、広告を載せても無料でサービス提供ができ、Googleなどの大手が優位に立つ可能性が高い
・⭐️OpenAIやAnthropicが生き残るには、汎用的なタスク処理や自律的エージェント開発など、より高度な領域で差別化する必要がある
・⭐️エージェント(AIが自律的にタスクをこなす存在)は過剰に期待されている面もあるが、一方で多ステップのタスクを確実に実行するための「高い精度の積み重ね」がまだ難しい
・自動運転などの事例になぞらえ、少しのエラー率でも多ステップを積むとエラーが累積するため、実用化には高いハードルがある
・⭐️特にウェブやOSのように制約が少なく複雑な環境では、エージェントに任せるハードルが自動運転以上に高い
・ただし特定分野を限定すれば(たとえば旅行サイトとAPI連携するなど)エージェントが有用に働く場面は出てくる可能性がある
・企業がウェブサイトをAI対応しやすい構造に変えたり、特定のAPI連携を整備したりすることでエージェントの活用が広がる可能性もある(💭Agent First)
・ソフトウェアエンジニアリングの分野では、既にコード自動生成による生産性向上が目覚ましく、多くの開発者が有料プランを含むLLMを活用している
・⭐️特にコードはコンパイルやテストによる検証が可能な「検証可能領域」であるため、他の分野よりもエージェント技術の発展が速い
・⭐️ソフトウェア開発のコストが大幅に下がれば、プラットフォームSaaSに頼らずに自社独自のシステムを構築する動きが増える可能性がある
・⭐️一方でこれにより、ソフトウェアエンジニアの需要が急激に消滅するわけではなく、今後は伸びが鈍化する可能性がある
・⭐️ロボットの家庭導入など物理的世界とのインタラクションはエラーケースが非常に多いため、ソフトウェア領域ほど急速には進展しにくいという考えが示された
・⭐️エージェント化したLLMが複数のウェブサイトやアプリを横断してタスクをこなすには、まずは大手企業とのAPI連携や専用UI整備などのインフラ構築が必要だ
・各企業はAIが使いやすいように自社サイトを整備して市場を取り込みたい動きが出る一方で、AI利用による追加手数料や価格上乗せなど、新たなビジネスモデルも生まれる可能性がある
・⭐️ユーザー側はエージェントの失敗時に人間のオペレーターが介入するような「テレオペレーション」サービスの需要が生まれる
・⭐️AI同士が連携して問題解決を行い、さらに行き詰まった際には人間が補佐する、という多段階構造のビジネスも今後出てくるだろう
・すでに一部の研究機関や企業では、GoogleやAmazonの偽サイトなどを作り、エージェントを訓練するためのサンドボックス環境を用意しているという話がある
・このように、分野ごとや環境ごとに段階的にAIが適用され、実績を積みながらゆっくりと汎用化していく流れがある
・⭐️ただし、いわゆる「次の段階」に進むにはまだ多くの技術的課題やインフラの整備が必要であり、当面は「チャット」「推論・推敲」「限られたエージェント的タスク」の段階に留まるだろう
・⭐️プログラミング支援分野ではすでに大きな生産性向上が見られ、特にベンチマークのスコア向上が急速であることから、今後さらにソフトウェア開発の形態が変わりうる
・⭐️ただし多ステップでの完全自動化はまだ困難で、人間のレビューや高次の意思決定は依然として重要である
・人間は他の人間の好みや判断を理解する能力に優れ、それがAIの好み(プリファレンス)の源泉となる
・AI開発では「どちらの回答が良いか」を人間が判定する形で学習(RLHFなど)する手法が主流になりつつあり、ソフトウェアエンジニアリングでもPRレビューのように最終判断を人間が行う形が想定される
・⭐️プログラマーはAIを使いこなし、監督・パートナーとしての立場を担う必要がある(💭プログラマは意識的にポジションを変えていく必要がありそう。o1、o3のプログラミングのベンチマークの異常な伸びを見る限り、純粋にコードを書くという面においてはAIに今年~来年くらいには勝てなくと予想される。今まで会社の手足だったプログラマは、自分が脳になりAIエージェントを手足とする必要がある。)
・⭐️高度なシステムを管理するにはプログラミングの専門知識が不可欠であり、一方でドメイン専門知識(航空宇宙、半導体、化学工学など)を持つ人材がAIを活用すれば大きな可能性がある
・各分野では旧来のプラットフォームやソフトウェアが使われている場合が多く、AIを活用して近代化や自動化する余地が大きい
・法的分野や行政分野でもソフトウェアによる効率化が期待されるが、既得権益や官僚主義が障害となる場合がある
・MetaのLlamaライセンスには特定の利用制限や名称使用の義務があり、オープンソースソフトウェアの定義から外れる部分がある
・DeepSeek R1は商用利用や二次利用に制約がない真にオープンなモデルを提示しており、こうした動きがオープンソースAIを進める契機になっている
・Stargateはテキサス州アビリーンに建設予定の大規模データセンター計画で、サム・アルトマンやラリー・エリソン、トランプ前大統領などが関わっている
・トランプ政権下(新政権という想定の設定)で連邦土地での建設許認可手続きが簡素化されたことや、テキサス州の送電網が独立している点などが建設加速の背景となっている
・Stargateでは総額1000億ドルから5000億ドル規模とも言われる計画が報道されているが、まだ資金面で不確定要素が大きい
・⭐️第1フェーズは2.2GW規模のデータセンターで、GPUなどのサーバー費用が約500億ドル、総所有コスト(TCO)としては1000億ドルとも見積もられる
・資金調達にはオラクルやソフトバンク、UAEの投資ファンドMGXなどが候補とされるが、すべて確定しているわけではない
・⭐️OpenAIは自社の出資分として190億ドルが必要とされるが、まだ手元資金が足りず、追加の大型投資を募っている段階
・⭐️トランプの関与は直接的な予算拠出ではなく、規制緩和や巨大インフラ建設を後押しする雰囲気づくりの面が大きい
・⭐️大規模クラスター建設には高いリスクや巨大資金が必要だが、今後のさらなるAIモデル性能向上や競争激化に備え、各社や投資家が注目している
・将来的にはネットワーク、特に光学技術やマルチデータセンター間での分散学習が重要になり、通信・光学部門での技術革新が期待されている
・⭐️巨大言語モデルの評価や発展には、サプライチェーン(GPU製造、電力、ネットワーク整備など)全体を見通す必要があり、そこにこそ大きな成長機会があると考えられている
・メモリやインターコネクト、データセンター間のファイバーなどの速度差について尋ね、それらが将来的に一体化して単一のコンピュータのように扱える可能性はあるのか?
・それは不可能であり、プログラミングはより複雑になり、メモリ階層やアクセスレイテンシの違いがなくなることはない
・メモリ階層として、チップ内のレジスタやキャッシュ、HBMやDDRなどのメインメモリ、多数のチップ間で共有するプール、データセンター内外のストレージやネットワークといった段階があり、アクセスコストが異なるため単一のプログラミングモデルで簡単には扱えない
・並列化によって性能を上げようとしても、リソースを倍にしたからといって必ずしも性能が倍になるわけではなく、効率上の課題が存在する
・DeepseekやGoogleなど、多くの企業や研究者がネットワークやプログラミングモデル、アルゴリズムなどを工夫してスケーリングを最適化しようと取り組んでいる
・ハードウェアのリソグラフィやエッチング、ファブリケーションからネットワーキング、冷却技術、電力やトランスフォーマー、ケーブルの高密度化といったレイヤーまで、人類はあらゆる階層で活発にイノベーションを進めている
・Dylanは半導体やAIモデル開発など、技術の最先端を分析・モニターする活動を行い、それが人類文明のデジタル面を俯瞰できる立場につながっていると語る
・モデルをトレーニングすることは非常に面白く、まだ多くの未開拓分野があると指摘しつつ、AI開発のオープン化が重要である
・より多くの人がAIに関わり理解を深めることで、技術の透明性や安全性が高まり、人類全体にとってより良い方向に進む可能性がある
・チェーン・オブ・ソートのような技術でモデルの思考過程を見ると、人間の知能や意識について改めて考えさせられる瞬間がある
・⭐️物理世界とのインタラクション、特にロボティクス分野では、センサーや低レベル制御といった課題がまだあり、現状の大規模言語モデルを使うだけで容易に解決できるわけではない
・⭐️人類が千年先まで存続する可能性を楽観視しており、大きなリスクが出てきた場合には人類はそれに対応してきた歴史がある
・⭐️人類全体への脅威よりも、AIやブレイン・コンピュータ・インターフェースを利用する少数の権力者が大きな力を得る「テクノファシズム」的な状況を懸念している
・⭐️一方で、AIが効率化を促進して経済的豊かさをもたらし、人類全体の苦しみを減らす可能性も高いという楽観的見方もある
・最終的には、こうした複雑な側面を伴いながらも、AIやモデルのオープン化、ハードウェアとソフトウェア双方での進化が今後も続くと予想される
(2/2)
書き起こし→o1-pro翻訳
DeepSeekを理解するうえで“決定版”ともいえる動画が公開されました。レックス・フリードマン、ディラン・パテル(Semianalysis)、ネイサン・ランバード(Interconnects)の3名が、5時間にわたってDeepSeekを徹底的に議論しています。これまでで最も詳細にDeepSeekについて語った内容であり、一見の価値があります。以下まとめ
・DeepSeek R1はOpenAI o3-miniと同等の性能をベンチマークで示し、コストがさらに安いことやチェーン・オブ・ソート(思考過程)を表示できる点が特徴とされる
・o3-miniは推論表示を要約版として出力するが、DeepSeek R1は推論過程を完全に表示する
・R1はオープンウェイトであり、o3-miniはクローズドソースである
・実際に使ってみた感触ではo3-mini-highがR1よりも優れている側面もあるが、クロード(Claude)Sonnet 3.5がプログラミング用途には最適という話もあった
・高度なプログラミングにはo1 Proを使ってブレインストーミングする人もいるなど、それぞれのモデルに得意・不得意がある
・今後も米中双方を含むさまざまな企業から高性能の推論モデルが多数出てくる見込みで、コストの曲線はさらに下がり続ける
・⭐️DeepSeekのリリースは地政学的にも技術的にも重要な転機として5年後も語られる可能性が高い
・DeepSeek v3とDeepSeek R1は異なるポストトレーニングを経ており、v3は指示に従いやすいチャットモデル、R1は推論可視化と正解検証を重視するモデルとなっている
・R1は思考プロセスを表示(チェーン・オブ・ソートを開示)し、解答前に問題を分解する一連の過程が長文で出力される
・対照的に、一般的なチャットモデルは推論部分をユーザに見せず最終回答のみを提示する
・オープンウェイト(Open Weights)とはモデル重みが公開されダウンロード可能な形で提供されることで、誰でも自分の環境でモデルを実行できる
・オープンソースはさらにデータセットや訓練コードも含めて公開されるが、多くの企業モデルはそこまでは公開していない
・DeepSeekのライセンスはMITに近く商用利用も制限が少ないが、他のオープンモデルは使用制限がある場合も多い
・オープンウェイトのメリットはユーザのデータを外部に送らずにローカルで推論を実行できる点である
・DeepSeek v3は高性能なベースモデルで、その上にインストラクションチューニング(RLHF等)を行ったものがチャット版として公開されている
・DeepSeek R1はv3ベースに推論特化の新しい学習手法を加えており、数式やプログラミングのように検証が可能な領域で試行錯誤しながら正解に近づく仕組みが組み込まれている
・ポストトレーニングでは主にインストラクションチューニング、RLHF、推論強化学習(解が検証可能な領域に試行錯誤する)など複数の手法が用いられる
・DeepSeekは詳細な論文や技術レポートを公開しており、実装や学習プロセスの多くを具体的に示している
・OpenAIやMetaのLlamaと比較しても、DeepSeekは公開情報の豊富さやライセンスの自由度で注目を集めている
・DeepSeek v3はGPT-4、Llama 405Bなどと同等レベルの性能があり、Mixture of Experts(MoE)という手法の導入で学習や推論コストを下げている
・Mixture of Expertsは巨大モデルのパラメータ全部を常に使わず、タスクに応じた専門の一部パラメータのみを活性化することで効率化を図る
・DeepSeek v3は合計6000億以上のパラメータを持つが、推論時には約370億パラメータのみを使うため、リソース節約が可能になっている
・MLA(Multi Latent Attention)という新技術も導入され、CUDAレベルでの最適化も含めて非常に効率の高い学習が行われている
・こうした技術スタックによって、DeepSeekは大規模なモデルを低コストかつ高速に動かすことに成功している
・Transformerは注意機構(アテンション)と全結合のMLPを交互に積み重ねる構造で、Mixture of Experts(MoE)は主にこのMLP部分に適用される
・TransformerモデルではMLP部分が最もパラメータ数を多く占めるため、MoEを使うことで推論時も学習時もパラメータをすべて活性化せずに済み、大幅な効率化が可能となる
・深層学習は長年にわたりモデルが大規模化してきており、スケーリング則(bigger is better)が確認されているが、その「大きさ」にはいろいろな側面がある
・MoEを採用すると学習効率を大幅に上げられる可能性があり、実装次第では同等性能を得るのに必要な計算量を30%ほど削減できることもある
・しかしMoEを実装・運用するには高い複雑性が伴い、大規模モデルほどその恩恵は大きいが実装の難易度も上がる
・DeepSeek(DeepSeqとも表記)はMoEを極めて上手に実装しているとされ、Mixture of Expertsを古くから研究・活用してきている
・DeepSeekの「Multi Head Latent Attention(MLA)」はメモリ使用量削減を狙った仕組みで、Positional Embeddingの手法(RoPEなど)との組み合わせや低ランク近似など、多くの技術を複雑に実装している
・このような大規模モデルの効率的実装には、CUDAやNvidiaの通信ライブラリ(NCCL)を活用するが、DeepSeekはさらに低レイヤーのレベルで通信スケジューリングを最適化している
・NCCLはGPU間通信の標準ライブラリだが、DeepSeekはGPUコア(SM)のどれを計算に使い、どれを通信に使うかまで細かく制御することでさらなる高速化を実現している
・こうした低レベル最適化はモデルサイズやアーキテクチャに強く依存し、一般性は下がるものの、DeepSeekの環境では必要性から大きな成果につながったと考えられる
・多くの既存MoEモデルはエキスパート数が8や16で、そのうち2つ程度を活性化するが、DeepSeekは256のエキスパートから32を活性化するといった高いスパース化を行っている
・高いスパース化ではエキスパートの割り当てやGPUのロードバランスが極めて難しく、特定エキスパートに入力が集中すると他が遊んでしまう問題が生じるため、高度なルーティング制御が必要となる
・MoEではエキスパートの使用バランスを保つために補助損失(auxiliary loss)を用いることが多いが、DeepSeekは損失関数に頼らないパラメータ追加型のルーティングでエキスパートの負荷を調整している
・こうしたアーキテクチャ上の工夫は、各企業や研究機関でも研究されていると推測されるが、DeepSeekはそれを公開し、モデルや重みを公開している点が特徴的である
・スケーリング則や「The Bitter Lesson」は、人間による複雑な帰納バイアスよりも、大量の計算資源を投入して単純な学習や探索を行うアプローチが最終的に勝りやすいという考え方を示している
・MoEのような実装上の改良が「Bitter Lesson」の文脈でどこまで長期的に重要になるかは未知数だが、大規模計算をいかに効率よく回すかは当面の大きな焦点になっている
・高い汎用性をもつライブラリ(例:NCCL)は広範囲の状況で動くが最適化の余地が残り、DeepSeekのように特定アーキテクチャ向けに最適化したコードは高性能だが汎用性が下がる
・大規模学習を行うには、まず小規模の実験(アブレーションスタディ)で多数のハイパーパラメータや構成を試し、最後に巨大資源を投入する「YOLO run」を実行するスタイルが一般的
・「YOLO run」は実際に何百億円単位のコストがかかることもあり、学習途中の損失値の暴走(loss spike)や学習崩壊が起こると多大な損失につながるため、研究者は非常に神経を使う
・学習が停滞したように見えていても突然急激に性能が向上する(grokking現象)こともあり、損失曲線の監視は単純ではない
・データ中に「Microwave Gang」のようにアルファベットMばかりが連続する特殊なケースがあると、モデルの予測との乖離が大きく一時的に損失が暴騰するなど、実装以外にもデータ由来の問題がある
・学習中に損失が吹き飛んだ場合は、直前のチェックポイントに戻って学習を再開することが多いが、回復しない場合もあり、非常にコストがかかる
・全ての大手研究機関が大規模学習における失敗を経験しており、実験的要素を伴う以上、これは不可避である
・結果的に、こうした失敗の繰り返しから得られたノウハウと実装の積み重ねが、DeepSeekのような高性能モデルの開発につながっている
・大規模モデル開発には、理論的アイデアだけでなく、データ・実装・エンジニアリング・ハイパーパラメータといった複合的な最適化が必要であり、その小さな積み重ねが最終性能を大きく左右する
・訓練後の段階で作業するメリットとして、GPUのコストが低くなるためより多くのYOLO的なトライを可能にする
・将来的には変わる可能性があるとし、運の要素はスキルでもある
・一見幸運に見えても、実際はデータ改善などの局所的な試行錯誤の積み上げでモデルの性能が向上する面が大きい
・モデルがある領域で明らかに弱い場合に対処するローカルな改善を積み重ねることが重要
・巨大な探索空間のなかで限られた時間とリソースしかないため、リリーススケジュールに追われながらも効果的なアプローチを選択する必要がある
・2025年は各社がYOLO的な大規模学習を積極的に行う年になると指摘し、OpenAIの2022年時点での大胆な訓練投資が例になる
・OpenAIが2022年にまだ実績の少ないアーキテクチャであるMixture of Expertsを用い、限られたリソースをすべてGPT-4に投下したのは非常にリスキーだったが結果を出した
・DeepSeekはHigh Flyerというヘッジファンドに属しており、アルゴリズム取引にGPUを多用してきた歴史がある
・2021年時点でDeepSeek(High Flyer)は中国最大規模と称する1万枚のA100 GPUクラスターを所有していたと公表している
・輸出規制の議論が起きる以前から大量のGPUを保有していたため、中国国内にある程度の大規模学習が可能なリソースを確保していた
・DeepSeekの実際の保有GPUは5万枚程度に及ぶと分析しており、これはファンドのクオンツ業務や研究、言語モデルなど多岐に活用されている可能性がある
・DeepSeekは最新モデルV3の事前学習にH800を2000枚使用したと発表したが、これは研究や小規模実験を含む全体のGPU使用量を反映するものではない
・H800はH100の中国向け制限版であり、演算性能はほぼ同じだがインターコネクト帯域が制限されている
・実際の大規模学習では事前学習以外の実験やアブレーションにも同程度のGPUリソースが使われることが多い
・Hopperアーキテクチャ(H100とH800)について、政府の輸出規制について、当初は演算性能とインターコネクト帯域の2つの要件で制限がかけられたが、後に演算性能を主軸とした制限に変わり、NVIDIAはそれに合わせたチップを設計していると述べた
・最新のH20はインターコネクト帯域はH100と同等以上だが演算性能が落とされているなど、輸出規制を回避する形で改良されている
・Anthropic CEOのDario Amodeiの輸出規制に関するブログをに関して、強力なAIが軍事的な優位をもたらす可能性からアメリカ政府は中国を遅らせたいのではないか
・⭐️現実的には中国が大規模学習を完全に止められるわけではないが、推論(インファレンス)などの大規模利用を制限することは可能かもしれない
・強力なAIによる経済成長や軍事転用は大規模な推論に依存するため、アメリカは計算資源をより豊富に使える状況に留まることで優位性を保てる
・今後のAIにおいては推論時の高い計算コストを要する「推論段階での高度な推論モデル」が鍵になる
・OpenAIのo3モデルの例として、ARCテストを解く際に1問あたり数ドルから数十ドルの推論コストがかかるため、大規模GPUが必須
・このように複雑な推論を実現するモデルが増えれば推論のためのGPUリソースが大量に必要になり、それが中国に対する輸出規制の狙いと合致する
・Darioの言う「スーパー・パワフルAI」(AGIよりも軍事的優位性をもたらすレベル)を使えば世界的な影響力が大きく変わる
・⭐️言語モデルですでに汎用知能と言える部分があるが、今後は自律的に動くエージェント型AIが求める推論コストが飛躍的に大きくなる
・⭐️輸出規制は中国のAI大規模利用を抑止し、アメリカの優位を保つ
・DeepSeekのCEOであるリャンは、中国でオープンなAIエコシステムを構築することに意欲を示しており、中国がソフトウェアエコシステムで先導しなかった歴史を挽回したいというAGI志向の考えを持っている
・レックスがリャンが英語メディアでインタビューをする可能性について尋ねたが、実際にはまだ実現していない
・DeepSeekは、中国内での大規模GPUリソースを背景に、オープンかつ強力な言語モデルを育てようとしているが、アメリカ側の輸出規制による制限が今後の推論リソースにどのように影響するかが注目点となる
・Darioは2026年までに強力なAI(agenticな能力を持ち、安全保障上の脅威となるレベル)が出現する可能性を示唆している
・Nathanは具体的な能力の到達時期を予測するのは難しいが、今後数年で大きな進歩が続くと考えている
・⭐️DeepseekがR1を公開したことにより、従来のChatGPTのような漸進的進歩の延長だけでなく、新たなモデル改変による急激な進歩が起こり得ることを示唆しており、それが不安を助長している
・⭐️OpenAIが提供するオペレータモデルやAnthropicのClaudeのようなエージェント的アプローチはまだ十分に完成していないが、今後のブレークスルーによって大きく進化する可能性がある
・⭐️Nathan自身はDarioたちの短期的な予測よりも少し遅い2030年前後をAGIの可能性として考えている
・Dylanは「すでに政治・社会・軍事に対してAIが深刻な影響を与えつつある」という視点を持ち、例えばインドやパキスタンの選挙で有権者へのAI音声コールが行われるなど、世界で起きている事例を挙げている
・AIによる大規模な誤情報拡散は想定よりまだ顕在化していないという研究結果もあるが、音声や映像など測定の難しい領域での利用は今後増える可能性がある
・⭐️軍事・防衛の観点では、大規模なドローンの自律運用などについて、実際には人間のオペレータが操縦する方が現状は優位だが、2030年前後までに大きく変わる可能性がある
・⭐️サイバー攻撃や社会インフラへの攻撃(電力網を停止させる等)が行われれば、数日単位でも社会混乱が避けられず、AIがその攻撃を支援できる段階に入ると世界の景色は大きく変わる
・AIと地政学の関係では、米国が半導体輸出規制(特に対中国)を強化している。これは軍事やAI開発での優位性を維持する目的があり、AIの進化に合わせて重要度を増している
・中国は産業規模・人材数ともに巨大であるため、もし中国政府が「スケール重視(scale pilled)」を本格的に打ち出せば、米国より早く大規模なAIの実用化に踏み切れる潜在力がある
・⭐️現状では中国が半導体製造装置(特にEUVリソグラフィ装置など)を自力で完全に開発・量産できない点が弱みだが、補助金や国家的投資で急速に追いつく可能性がある
・長期的視点だけを考えると、米国による対中輸出規制は中国の技術自立化を促進し、最終的には中国側が優位になるリスクがある
・⭐️ただし、AIが5年から10年以内に大きな軍事的・政治的インパクトをもたらすと考えるなら、短期的なアドバンテージを確保するために現行の規制は米国にメリットがあるとも言える
・⭐️一方で規制により中国が台湾に軍事的行動を起こすリスクも指摘されている。台湾のTSMCが最先端半導体製造で世界をリードしているからである(💭他の資料を読んでいても、DeepSeekの登場を契機に米中台の地政学的リスクが一気に顕在化したと感じる。)
・台湾TSMCは「ファウンドリ専業」というビジネスモデルで世界各国・各企業のチップを受託製造し、莫大な投資を継続している。最先端のプロセスを実現するための製造装置や施設には毎回数十億~数百億ドル規模のコストがかかる
・かつてはAMDやIBMなど、多くの企業が自社でチップを設計・製造していたが、製造のコストと技術的難易度が跳ね上がった結果、TSMCに製造を委託する流れが加速した
・Nvidiaは「ファウンドリ時代」に誕生し、当初からTSMCと提携して自社のGPUを製造してきた代表例である
・IntelやSamsungでさえも最先端プロセスのチップ生産でつまずき、TSMCに生産を依頼するケースが増えている
・米国はTSMCに米国内で最新ファブを建設させる方向を進めているが、製造技術やサプライチェーンの大半は台湾にあり、地政学的リスクが高まっている
・現在の世界の半導体・AI開発のパワーバランスは、TSMCのプロセス技術とファウンドリ能力、そして中国の巨大な産業・資金力、米国の規制と軍事・投資の動向が複雑に絡み合っている
・ファウンドリモデルが成功している背景として、ファブ(工場)の建設費用が莫大であり、先端的な半導体プロセスの研究開発が非常に困難であるため、大規模生産によるコスト回収(スケールメリット)が重要になっている
・かつて多くの企業は自前の垂直統合(独自ファブでの製造)を行っていたが、プロセスやチップが高度化・多様化する中で設備投資と開発リスクが増し、専業ファウンドリに依存する方向にシフトしている
・ムーアの法則やDennard Scalingが限界に近づき、チップの高性能化が製造技術だけでは達成しにくくなった結果、アーキテクチャ面での革新や多種多様な用途に応じたチップ設計が進んでいる
・Googleのように多種多様な用途(YouTube向け専用チップ、TPU、Pixel用チップなど)でカスタマイズされたチップを多数使う例が一般化し、大量のチップを製造できるファウンドリが必要になっている
・車載用でも膨大なチップが使われ、ドアハンドルにまで複数のチップが入るなど、需要の拡大と多様化が進んでいる
・ファブの建設コストは指数関数的に上昇しており、小規模プレイヤーでは生産量が不足して投資を回収できず、結果的に生き残れない
・製造装置やプロセスのわずかなミスや不具合が致命的な収率低下を招くため、長期にわたって先端プロセスを安定稼働できる技術力や資本力を持つ企業が限られる
・Intelはかつて20年以上にわたり先端プロセスをリードしていたが、経営判断ミス(iPhoneへの供給拒否など)や製造プロセスでの遅れ、社内文化などが原因で遅れを取るようになった
・AMDは自社ファブを手放してGlobalFoundriesを設立し、設計に専念することで再興に成功した例がある
・ファウンドリ企業の中でもTSMCは顧客対応とプロセス技術に特化し、世界最先端の大量生産能力を備えることで多数の企業の依存先となっている
・TSMCは台湾を拠点としており、高い技術力を持つ人材がトップ層から集中する文化、長時間労働や地震時の即時対応などのハードワークが常態化している点などが強みとなっている
・アメリカでもIntelなどが一時は先端製造でリードしていたが、企業文化の問題や顧客対応力の不足などでTSMCに追い越された
・TSMCやSamsung、Intelなどが行う先端プロセスのR&Dは、台湾の新竹、アメリカのオレゴン州ヒルズボロ、韓国の平沢など限られた地域で集中しており、量産拠点が別の地域に広がっていてもR&D拠点への依存が強い
・アメリカではCHIPS法などで数百億ドル規模の支援策を打ち出しているが、ファブ投資全体から見れば十分とは言えず、完全な国内生産回帰には長い時間と莫大な資金が必要
・他国では中国が大規模な補助金を投じ、先端プロセスはまだ遅れがあるものの、トレーリングエッジ(成熟プロセス)を中心に多くのファウンドリを育成している
・中国は米国の輸出規制によって先端プロセスへのアクセスが制限される一方、電気自動車用などの幅広いアナログ・パワー系ICを国内生産化して依存度を下げる方向にシフトしている
・⭐️今後、米中関係はさらなる分断の方向へ進む可能性が高く、互いに相手国からの技術や製品の依存を減らそうとする動きが続くと見られる
・⭐️グローバル覇権の交代期には歴史的に紛争が起こりやすく、一極支配から多極化へ進む際は地政学的リスクが高まる
・⭐️TSMCの工場を海外に建てても、R&Dセンターが台湾などに集中しているため、台湾での地政学リスクが世界の半導体供給に直接影響を及ぼす
・文化的背景として、台湾では最優秀層が半導体企業に集まり、真夜中の地震でも自発的にファブに駆けつけるほどの労働意識がある一方、アメリカではトップ人材がIT企業など他の業界へ流れやすい傾向がある
・アメリカが先端製造を国内回帰する場合、移民を受け入れて人材を確保する手段もあるが、政治的に議論が難航している
・⭐️トランプ前大統領が台湾への関税を示唆するなど、米国内へのファブ誘致を促す動きもあるが、実際の効果は未知数であり、コスト面や技術面での課題は依然大きい
・⭐️総合的に見て、半導体産業の将来は米中対立と地政学リスクの高まりが続く可能性が強く、TSMCやSamsung、Intelなど、限られた企業・地域に大きく依存する構図が当面は続くと考えられる
・AIの国際競争は代理戦争のような形をとる可能性がある
・世界情勢の不安定化はすでに進んでおり、長期的な平和が続くかは不透明である
・米国はAIをリードすることで世界的ヘゲモニーを維持しようとしており、それが平和をもたらすかは疑問もある
・中国側が不利になる可能性を指摘する声もあり、世界規模で見れば負の影響が出るとの見方がある
・GPUのハードウェア仕様は大きく「演算性能(FLOPS)」「メモリ帯域幅・容量」「チップ間インターコネクト」の3要素に分類される
・米国の輸出規制では当初FLOPSとインターコネクト帯域を規制対象にしたが、その後FLOPSのみを規制対象に変更した
・NVIDIAが中国向けに出しているH20(H800やB20などの後継含む)はFLOPSが制限されている一方で、メモリ帯域幅や容量は強化されている
・⭐️H20は推論(reasoning)用途には有利だとされ、米国側はこれをさらに規制する動きがあるとの見方がある
・Transformerの仕組みでは「アテンション機構」が重要で、Q(クエリ)・K(キー)・V(バリュー)の3つの行列が計算される
・自己回帰型の言語モデルは1トークン生成ごとに前のトークン情報をKVキャッシュとして保持し、次の生成で再利用する
・入力トークンの処理は並列化可能なため比較的コストが低く、出力トークンは逐次処理なのでコストが高い
・OpenAIが入力トークンより出力トークンの課金を高く設定しているのは並列化の可否の違いに起因する
・長いコンテキスト(例:本の全文など)を扱うとアテンションの計算量は二乗に増え、KVキャッシュのメモリ使用量も急増する
・新たな推論用途(reasoning, chain-of-thought, エージェントなど)では生成されるトークンが非常に多いため、メモリ負荷が大きくなる
・DeepSeekは独自アテンション方式(MLA: multi-head latent attention)などによりメモリ使用量を大幅に削減している
・DeepSeek R1のAPIは高性能かつ安価で、OpenAIのo1より大幅に低コスト(27倍近い差)が報告されている
・⭐️OpenAIは推論サービスで75%以上の高いマージンを得ているが、研究開発コストを補うには十分でないため資金調達も続けている
・DeepSeek R1のモデル重みはオープン化されており、他社も提供を試みているが多くはコストやスループットの問題が大きい
・⭐️理由としては、大規模推論環境の構築やKVキャッシュの管理などが難しく、OpenAIやDeepSeekほどの効率化ができていないためだ
・⭐️結果としてDeepSeek自身がR1の商用APIを最も低価格・高性能で提供できている点が注目されている
・トレーニングコストだけでなく推論コストの削減技術が今後の競争力を左右する
・⭐️DeepSeekはGPUリソース不足のため、ユーザー向けのモデル提供が制限されている
・⭐️OpenAIはMicrosoftと連携し大規模GPUを保有しており、DeepSeekにはそのような大規模運用は難しい
・⭐️DeepSeekはAPI提供で利益を得ているかは不明であり、実際には収益化がうまく進んでいない可能性がある
・DeepSeekの推論コストが他社と比べて格段に安価なのは、モデルアーキテクチャやMoE構造、独自の効率化が要因と考えられる
・⭐️DeepSeekを支援しているヘッジファンドが資金源となっており、中国政府の直接的な補助金は受けていないと推測される
・DeepSeekのCEOは独自の考え方を持ち、政府寄りではない姿勢が見られるため、中国政府との密接な関係は薄いと見られている
・DeepSeekはこれまで大きな資金調達を行っておらず、主にヘッジファンド側の資金でモデル開発を続けている
・⭐️リリースのタイミングに関する陰謀説(NVIDIA株やアメリカのAI企業株を空売りし、大きなリリースで市場を動かす等)はあまり根拠がないと見られている
・⭐️DeepSeekはリリースを素早く行っており、Anthropicなどの企業が慎重な安全性チェックに時間をかけるのと対照的である
・⭐️Anthropicは安全性・チェーン・オブ・ソート公開のリスクを重視しており、モデル完成からリリースまで数か月の遅れがあることが指摘されている
・⭐️サンフランシスコ界隈では、AnthropicがOpenAIより性能が高いモデルを開発済みだが、安全性上の理由でリリースしていないという噂がある
・DeepSeekは一方で「危険だからと公開を遅らせる」というより「早く出す」方針をとっており、安全性基準は他社より低い可能性がある
・⭐️このような安全性の差はAIレースにおいて「ソビエトとアメリカの宇宙開発競争」に例えられ、結果として米国企業の安全基準も引き下げられる圧力がかかる可能性がある (💭ありそう)
・オープンソースモデルが世界的にスタンダード化していくとき、国や企業による検閲や誘導(政治的・文化的バイアス等)が組み込まれるリスクがある
・⭐️オープンソースAIであっても、隠れたバックドアや文化的・政治的誘導が潜む可能性が指摘されている
・⭐️「超人的な説得力(superhuman persuasion)」が「超人的な知性(superintelligence)」より先に実現する危険があり、意図的に人々の思考を誘導することが技術的には可能になる
・すでにレコメンデーションシステムはユーザーの注意を奪う方向に特化しており、将来的には対話型AIが同様の手法でユーザーの時間を奪い、思考に影響を与える懸念がある
・アダルト産業は常に新技術を早期採用する傾向があり、生成系AIや対話ボットが既に取り入れられている
・現在の多くのモデルでは、「危険ワードに対して回答拒否する」ような簡易的なフィルタリングが行われているが、プレトレーニング時に知識が含まれてしまえば完全に削除は困難
・GeminiのBlack Nazi事件(画像生成における自主規制)は「アラインメント」や「検閲」の代表例として挙げられ、政治的・文化的に不都合な事柄を事後的に調整している様子が見られる
・天安門事件に関する事実は中国製モデルで答えがブロックされるなど、各国や企業によって特定の検閲がかかる現象が既にある
・⭐️技術的にはプレトレーニングデータでの情報削除、RLHFによる後処理、追加のシステムプロンプトなど、複数の段階で検閲や改変が起こる可能性がある
・⭐️事実をモデルから「削除」するにはプレトレーニング段階で完全に除外する必要があるが、インターネット上の情報を丸ごと排除するのは実質的に不可能に近い
・SNSやネット断ちによって人間が「情報への依存度」を下げられることを実感する一方、AIがさらに進歩すれば、人々の思考を誘導する力がより強くなると危惧されている
・⭐️最終的に、オープンソース・クローズドソースにかかわらず、AIモデルの開発・公開が国際競争と深く結びつき、安全性とリリースのスピードをめぐるジレンマが高まっている
・検閲の難しさとして、天安門事件のような特定単語を直接フィルタリングしても、言い換えや暗号化などに対応しづらい問題が指摘されている
・インターネット自体がそもそも若年層や富裕層などが多く参加している傾向から、わずかに左寄りのバイアスを持っている可能性があるという意見がある
・大規模言語モデルのトレーニングでは、特定の政治的・思想的傾向を除去するには非常に多大な労力が必要になる
・各社はRLHF(人間のフィードバックによる強化学習)などの技術を使い、最終的なモデルを制御・安全化しているが、それでも十分とは言えない
・⭐️Elon Muskが開発を進めるGrokのように、モデルに過度な検閲を施さず、自由度を高めようとする取り組みもあるが、学習データに偏りが入り込むのは避けがたい
・モデルの動作制御には大きく分けて、事前学習(pre training)と事後学習(post training)がある
・事前学習ではウェブ上の莫大なデータを一括して学習させるため、特定のバイアスや不適切な内容は消しにくい
・事後学習にはRLHFやシステムプロンプトの書き換え(prompt rewriting)などがあり、モデルの最終的な応答をコントロールするために使われる
・Llama 2チャットモデルは過度な安全強化が原因で「Pythonプロセスをkillする方法」を聞いたときに、殺人関連の質問だと判断して拒否するような誤動作があった
・これによりRLHFがモデルを“馬鹿にする”という批判が出たが、実際にはRLHFには性能向上のメリットも大きい
・RLHFによってコードや数学のタスクなどが大幅に性能向上する事例もあり、各社が大規模に活用している
・Googleが内部で行ったGeminiモデルのサービング時に、システムプロンプトの書き換えが原因で誤った応答が返る事例があり、組織的なエラーと考えられている
↓に続きます
(1/2)(続き)
・人間によるアノテーションデータは、以前は数学やコードの分野で詳細な解答例を作るのに使われてきたが、今ではモデルのほうが優れた回答を作れる場合が増えている
・それでも人間による比較評価(ペアワイズ比較)は依然として重要で、RLHFはそうした人間の好みや基準を取り入れながらモデルを最終調整している
・チェーン・オブ・ソート(chain of thought)による推論プロセスが注目されており、Deep SeekやR1などの研究で強化学習を活用することで新たな推論様式が自発的に生まれる事例が報告されている
・人間が推論プロセスを一つ一つ書き与えなくても、最終的に答えを検証する仕組み(報酬)さえあればモデルが自力で推論過程を発見できるという点はAlphaGoやAlphaZeroの自己対戦を思い起こさせる
・⭐️AlphaGoが人間の棋譜(模倣学習)を起点にしていたのに対し、AlphaZeroでは人間のデータを使用せず、より高いパフォーマンスを得た例は「ビター・レッスン(Bitter Lesson)」の考え方と一致する
・言語モデルでも、自己回帰的に複数の解を試し、正解に近い経路を残す強化学習的手法が効果を上げ、思考プロセスが emergent(自発的に発現)する可能性がある
・⭐️特にコードや数学のように答えが厳密に検証できるタスクでは、生成された解答をテストして正解を選ぶことが可能で、その繰り返しによってモデルが推論力を高めていく
・⭐️今後はウェブ操作やロボット制御といった「行動を無数に試して正解を得られる」領域で自己学習が進むと、予想外の学習効果が出るかもしれない
・⭐️具体例として、モデルがウェブ上でアカウントを作成し、何度も失敗しながらも最終的に多くのフォロワーを得るなど、金銭的あるいは社会的に検証可能な目標を達成する可能性がある
・⭐️こうした環境はオンラインでもロボットでも「無限のプレイグラウンド」となり、そこから得られる報酬で学習したモデルが、従来の事前学習を超える知能に到達するシナリオが議論されている
・ただし非検証的なタスク(例: 単に雑談をするなど)では、チェーン・オブ・ソートを強化学習に活用する仕組みがまだ十分確立していない
・一方、数学やコードの分野ではすでに「大半が解かれてしまった」ような状況で、より先鋭的な問題領域(大学高学年レベル以上など)でのみ未解決部分が残っている
・このように、RLHFやchain of thoughtによって推論力を高めるアプローチは今後さらに拡大すると考えられている
・OpenAIの新モデルo3-miniがリリースされ、o1やR1など既存のモデルとの違いが議論された
・⭐️DeepSeekが公開したR1のような「推論特化型の追加訓練」を行うモデルが注目されており、数学やコードへの特化がどの程度他分野に汎化するかが大きな疑問点として挙げられた(💭Reasoningが検証が難しい分野にまで汎化するかどうかに関しては、専門家の中でも意見が割れているように見える)
・⭐️数学やコード能力を強化したモデルは他の分野での表現力がやや弱まる傾向があり、その「生煮え」感(完全には調整されていない感じ)も含めてモデルの評価が行われている
・Gemini Flash 2.0とDeepSeek-R1、OpenAI o1-proなどはチェーン・オブ・ソート(思考の過程を表示する形式)を用い、数理的推論力を高めているが、出力の流暢さや柔軟性に差異がある
・モンテカルロ木探索のような検索的アプローチが推論プロセスに導入される可能性が示唆され、実際に並列サンプリングを行い正解を選ぶ仕組みが使われている事例もある
・⭐️DeepSeek R1はGPT3並のモデルを数百万ドル程度で作ったと公表され、巨大なモデル開発コストに対する認識が揺らいだが、研究費や人件費、推論コストなどは含まれていないため単純比較は困難とされた
・GPT3から始まった推論コストの大幅な低下トレンドが加速しており、数年で1トークンあたりの価格が数十ドルから数セント台にまで落ちてきた例が提示された
・⭐️OpenAIのo1 Proは月額200ドルで提供されており、単独では採算が合わない可能性が指摘されつつも、今後の大規模展開を見据えた試みと見られている
・推論時の並列実行(多数回サンプリング)による性能向上は計算資源を大量に消費するが、ハードウェアとソフトウェアの進歩により将来的にはコストが低下するだろうと予測された
・⭐️大規模なAI訓練・推論に対する需要が増えることでGPU需要は依然として高く、Nvidiaの株価変動は短期的なセンチメントの影響も大きいが、本質的にはJevonのパラドックス(コストが下がると需要が増える)のようにより多くのGPUが必要になると考えられている
・⭐️Blackwellなど次世代GPUに関する噂や「スケーリングが頭打ち」という議論がある一方で、o1やR1の登場により依然としてモデル性能は大きく向上すると見る専門家も多い
・⭐️Nvidia H100やH200は需要が高いためクラウド上での確保が難しくなっており、大規模デモのためにGPUを手配するのも困難なケースがある
・GPT4も当初100万トークンあたり約60ドルだったが、すでに数ドルまでコストが下がっており、今後さらに安価になる可能性がある
・モデルの思考過程を可視化するチェーン・オブ・ソートには「ステップごとの推論」を見られる面白さがあるが、一方でプライバシーやセキュリティ上の懸念も存在するとされる
・例として「人間の新奇な本質についてのアイデア」を出力させたとき、DeepSeek R1は「人間はお金や法律といった抽象的存在をゲーム化することで利己的欲求を社会全体の利益に転換している」という洞察を示した
・Gemini Flash 2.0は「人間は自己家畜化した類人猿である」という視点を提示し、社会的・認知的能力をそこから説明しようとする新奇なストーリーを展開した
・OpenAI o1 Proはより洗練され多様な分野に対応可能な回答を出せるが、場合によってはR1などの方が数理に特化した厳密な回答をすることもある
・o3-miniは高速で汎用的な回答が得意だが、哲学的・創造的問いへの応答の深みではo1 ProやR1に及ばないケースも見られる
・⭐️Nvidia株価の動きについて、中国側の「不正行為」疑惑などが影響した可能性があるとの指摘があった
・⭐️AIの進歩が急加速するほど、Nvidiaの市場規模が拡大するとされ、現状ではNvidiaが最も信頼されるGPU企業と見られている
・⭐️Nvidiaの競合他社が新たに登場したわけではなく、中国企業もNvidia製品を大量に使用している
・⭐️ByteDance(TikTok運営企業)は中国最大のNvidia顧客の一つであり、GoogleやOracleなど世界中のクラウド企業からもGPUを大量にレンタルしている
・⭐️GPU密輸の規模は、小口の例として個人がサーバを米国から中国へ手荷物で持ち込むケースがあり、大口としてはシンガポールやマレーシアの企業経由でルートを構築する例があるとされる
・バイデン政権とトランプ政権が導入した「AI拡散(拡大)制限ルール」により、中国企業が大規模なGPUクラスターを合法的にレンタル・購入することは制限されている
・具体的には、2,000GPUを超えるクラスターや1,500GPUを超える出荷が制限対象で、これにより中国側が大規模モデルをトレーニング・推論するハードルが高くなっている
・巨大言語モデルを提供する中国企業(DeepSeekなど)は、推論用のGPU不足でユーザーに十分なサービスを提供できない状態が見られ、モデル性能に比べ推論処理が追いつかない問題がある
・⭐️米国企業によるGPU提供制限と、密輸などの迂回ルートを踏まえると、中国が大規模モデルを維持・拡大するのは難しくなる可能性がある
・大規模モデルの開発手法として、他社の強力なモデル出力を学習データとして利用する「蒸留(ディスティレーション)」が一般的に行われている
・OpenAIのChatGPT出力を無断で学習データに使う行為は、OpenAIの利用規約(競合製品の開発禁止)に抵触する恐れがあり、倫理的・法的に議論の的になっている
・同時に、AIがインターネット上の膨大な著作物を学習データとして使用している点についても、権利関係・利用許諾の問題が各国で議論されている
・⭐️日本では、学習目的でのデータ利用について著作権の例外規定があり、AI開発に有利とされる一面がある
・産業スパイや情報流出に関しては、企業の人材引き抜きやパーティなどでの口頭情報共有が大きな要因となるとされ、技術的な機密保持は難しいと指摘されている
・ハニートラップなどによる産業スパイ行為も取り沙汰されており、AI分野のエンジニアが標的になりやすい可能性がある
・⭐️大手企業のAI用メガクラスター(巨大GPUクラスター)の建設が各地で進められており、データセンターの電力消費は従来の2~3%から10%近くにまで拡大する見込みがある
・Metaなども大規模なデータセンター増設を進めており、今後の推論需要の急増に対応しようとしている
・⭐️大規模化が進むにつれて、中国が手に入れられるGPU数との格差が顕著になり、世界的なAI開発レースでの不均衡が生じる可能性がある
・⭐️DeepSeekのような大規模モデルを持つ中国企業も、インフラ不足で推論提供に支障をきたす一方、海外のクラウド経由でのGPU調達には制限がかかっている
・OpenAIなどの先進モデルを参考にして効率化を図る中国企業の存在がある一方、米国側は規約や輸出規制を強化している
・蒸留や学習に用いるデータの正当性やライセンス問題は今後さらに大きな論点となる見通しがあり、各国の法整備や国際的な協定の動きが注目されている
・クラスターとは、大量のGPUなどをまとめて配置し、高速なネットワークで接続してAIの訓練や推論を行うための大規模データセンターを指す
・⭐️従来のデータセンターはウェブ検索や広告配信など分散的に処理する用途が中心だったが、大規模言語モデルなどの訓練と推論が加わり、より密に接続されたGPUクラスタが必要になっている
・⭐️AIの推論(インファレンス)は多くの場所に点在するGPUで行うが、巨大モデルの訓練には大規模なクラスタを一箇所に集約する必要がある
・AlexNetでGPUが使われ始めた当初は数枚のGPUでの訓練が画期的だったが、GPT-3やGPT-4では何万ものGPUが投入されるようになり、規模が飛躍的に拡大している
・GPT-4の訓練には約2万枚のA100 GPUが使われ、推定で15~20メガワットの電力を要したが、最新ではそれを上回る大規模クラスタが続々と登場している
・MetaやOpenAIは数万~10万規模のGPUを使い、推定100メガワット超の電力を要するトレーニングクラスターを運用している
・⭐️イーロン・マスクのXAIはメンフィスで工場跡を買い取り、20万枚のGPUを配置する世界最大規模のクラスタを構築している
・⭐️その施設では発電所を増強し、天然ガスを直接利用した発電やテスラの大容量バッテリーシステムなどを導入して膨大な電力を賄っている
・メガクラスター構築には電力・熱・ネットワークの3要素が大きな課題であり、特に電力と冷却をどう確保するかが重要になっている
・⭐️冷却方式は従来の空冷から水冷に移行しており、イーロンのメンフィス施設では大規模な水冷システムと外部に並ぶ巨大なチラー装置でGPUを冷却している
・⭐️電力需要は各社がギガワット(数千メガワット)規模のデータセンターを目指すレベルにまで達しており、核発電所レベルの発電能力を要する事例もある
・⭐️グリッドからの送電よりも、近くに直接発電所を建設して供給する方が効率的な場合も多く、Metaはルイジアナで天然ガス発電所を、OpenAIはテキサスで大規模施設を計画している
・⭐️再生可能エネルギーや原子力発電も候補だが、建設に時間がかかるため、当面は天然ガスなどの火力発電が主流になっている(💭SMRがよく話題になるが、AGIが早ければ2026年~2027年にも誕生すると言われていることを考えると、そこには間に合わなそうである)
・⭐️環境への影響や持続可能性の懸念はあるものの、AI競争においては電力を確保することが最優先と考える動きが強い
・⭐️クラスタの電力使用にはピークやスパイクがあり、GPUの訓練ステップ間の勾配同期のタイミングで消費電力が大きく変動するため、電力インフラとの連携が難しい
・MetaのPyTorchには“Pytorch power plant no blowup”というオプションがあり、同期時の電力スパイクを緩和する仕組みが追加されている
・⭐️こうしたクラスタの拡大競争は「誰が最大のクラスタを持つか」という話題になりがちで、現在単一拠点最大はXAIの20万GPU規模が最上位とされている
・⭐️AmazonとAnthropicはTrainium 2を40万~50万規模導入するとされ、MetaやOpenAIもさらに数十万GPU規模に拡張を進めており、今後は50万~70万GPU級のクラスタが出現すると見込まれている
・⭐️イーロン・マスクは将来的に100万GPUクラスタの可能性を示唆しており、許認可上の情報やバッテリーパックの導入計画から見ても拡張の余地は大きい
・⭐️巨大クラスタの用途は従来の「前処理のためのプレトレーニング」だけではなく、自己対話型の環境や検証可能タスクでモデルを継続的に学習させる「ポストトレーニング」が主要な計算消費源になると考えられている
・⭐️ポストトレーニングとしては自己対話やシミュレーション、ロボット操作の仮想環境、検証可能な数学・プログラミングなどで膨大なフロップスを費やすため、プレトレーニングよりはるかに大きな計算リソースを使う可能性がある
・⭐️大規模モデルのコンテキスト長が伸びると推論時や学習時の負荷が増し、フロップスの効率も下がる面があるため、ますますハードウェアとソフトウェア両面での最適化が必要になる
・⭐️これらの要素が相まって、今後もクラスタの規模は加速度的に拡大していき、電力や冷却、ネットワークをめぐる技術革新と競争が続くと見られている
・NvidiaがAI向けハードウェアの中心的存在になっている
・Googleは自社のTPUを保有し、データセンターを複数拠点にわたって大規模に展開している
・Googleの最大クラスターは物理的に分散しているが、光ファイバーで高帯域幅接続されている
・⭐️Elon Muskの単一拠点に全てのGPUを集約する方式とは異なり、Googleは複数サイトを連携させる形で世界最大規模のクラスターを持つ
・⭐️Googleは検索やYouTube、広告など自社の巨大サービス向けにTPUを活用し、ハードウェアを外部販売する文化があまりない
・⭐️TPUの設計やソフトウェアスタックはGoogle内部向けに最適化されており、外部一般ユーザー向けには十分公開・整備されていない
・⭐️Google CloudとTPUのハードウェア開発チーム、DeepMind、検索チームなどは別組織で動いており、統合されていない
・⭐️GoogleがAIハードウェアで積極的に商業化しない背景には、検索収益の規模が巨大で、追加の収益化に優先順位を置いていないことがある
・Googleの内部ではJAXやXLAといった優れたソフトウェアスタックが存在するが、外部には限定的にしか公開されていない
・NvidiaはCUDAやソフトウェアライブラリの整備などが充実しており、ハードとソフトを一体で外部顧客向けに提供する文化をもつ
・⭐️AMDのGPUはハードウェア性能は良い点もあるが、ソフトウェア面が弱く、サポートやバグ対応などで大きな差がある
・Intelはプロセス技術でTSMCに抜かれ、モバイル分野にも乗り遅れ、AI向けの有力シリコンを持てずに苦戦している
・⭐️TSMC、Samsung、Intelの3社のみが最先端の半導体開発のR&Dを担えるが、SamsungとIntelが遅れを取っている
・AWSがクラウド市場で圧倒的な地位を築いた理由には、先行者優位だけでなく中小顧客にも対応してきた点がある
・Microsoft Azureは市場2位で、Google Cloudは3位だが、MicrosoftはOffice 365なども含めた数字で上乗せされているため、実際の差は大きい
・AWSはAmazon全体の利益の大半を生み出しており、物流倉庫などのコマース事業は低利益だが、将来的に価格を上げる余地を残している
・OpenAIやAnthropicなどのAIスタートアップは研究開発と巨大な学習コストに資金を投じており、現時点では大きな利益は出ていない
・OpenAIはGPT-4などのAPI利用料から収益を得つつも、新モデル研究に莫大な資金を投入しており、継続的に資金調達を行っている
・MetaはレコメンデーションなどのAIを使い莫大な収益を得ているが、LLM関連ではまだ大きな直接収益には結びついていない
・Googleも検索など従来型AIで収益を得ているが、Geminiなど大規模言語モデルが直接大きな収益を生み出すかは未知数
・MicrosoftはAIの研究・提供に莫大な資金を投じているが、減価償却などの会計上は黒字でも、実質的には高いコストを背負っている
・⭐️長期的には「知能を安価に提供する」ことで大きな経済的価値が生まれる可能性があるため、投資が続くと見込まれている
・Elon MuskはXAIなどでAIモデルを作り、Teslaのロボット「Optimus」を含め、家庭向けロボット市場にも大きな可能性を見ている
・⭐️ロボットが人間の労働力を代替するならば、数兆ドル規模の市場が生まれるという試算もある
・AIレースではモデルやインフラなど複数のレイヤーで競争が進行しており、勝者が1社に限定されることはないという見方が強い
・最終的にAGIがどう実現されるかは不明で、複数企業が同時に異なる形で高性能AIを進める状況が続く可能性がある
・⭐️OpenAIやAnthropicのような専業AI企業が、GoogleやMeta、X(旧Twitter)といった大手プラットフォーム企業に比べて不利な立場にある可能性がある
・大手プラットフォーム企業は既存の多角的なサービスや膨大なユーザーデータ、広告収益などを持っているため、AI開発においてもコストや実装面で有利になりうる
・⭐️一方でOpenAIやAnthropicは最先端モデルの開発を続けているが、もしモデルがコモディティ化し、たとえばLlamaなどのオープンソース系モデルが安価で使えるようになれば、専業AI企業は存在感を失う可能性がある(💭ダリオが別のところで、大量のチップを確保できるのは数社だけになりそれがmoatになると反論してた気がする)
・⭐️ChatGPTのようなチャットアプリ単体の収益性や利用場面には限界があり、今後は広告モデルの導入や、エージェント的な高度タスク処理への展開が重要になるかもしれない
・広告モデルに関しては、AIの出力内にどう広告を組み込むかが明確になっておらず、Googleの検索連動型広告のように大きな収益源となるかは不透明だ
・⭐️一方でLLMがさらに安価に提供できるようになると、広告を載せても無料でサービス提供ができ、Googleなどの大手が優位に立つ可能性が高い
・⭐️OpenAIやAnthropicが生き残るには、汎用的なタスク処理や自律的エージェント開発など、より高度な領域で差別化する必要がある
・⭐️エージェント(AIが自律的にタスクをこなす存在)は過剰に期待されている面もあるが、一方で多ステップのタスクを確実に実行するための「高い精度の積み重ね」がまだ難しい
・自動運転などの事例になぞらえ、少しのエラー率でも多ステップを積むとエラーが累積するため、実用化には高いハードルがある
・⭐️特にウェブやOSのように制約が少なく複雑な環境では、エージェントに任せるハードルが自動運転以上に高い
・ただし特定分野を限定すれば(たとえば旅行サイトとAPI連携するなど)エージェントが有用に働く場面は出てくる可能性がある
・企業がウェブサイトをAI対応しやすい構造に変えたり、特定のAPI連携を整備したりすることでエージェントの活用が広がる可能性もある(💭Agent First)
・ソフトウェアエンジニアリングの分野では、既にコード自動生成による生産性向上が目覚ましく、多くの開発者が有料プランを含むLLMを活用している
・⭐️特にコードはコンパイルやテストによる検証が可能な「検証可能領域」であるため、他の分野よりもエージェント技術の発展が速い
・⭐️ソフトウェア開発のコストが大幅に下がれば、プラットフォームSaaSに頼らずに自社独自のシステムを構築する動きが増える可能性がある
・⭐️一方でこれにより、ソフトウェアエンジニアの需要が急激に消滅するわけではなく、今後は伸びが鈍化する可能性がある
・⭐️ロボットの家庭導入など物理的世界とのインタラクションはエラーケースが非常に多いため、ソフトウェア領域ほど急速には進展しにくいという考えが示された
・⭐️エージェント化したLLMが複数のウェブサイトやアプリを横断してタスクをこなすには、まずは大手企業とのAPI連携や専用UI整備などのインフラ構築が必要だ
・各企業はAIが使いやすいように自社サイトを整備して市場を取り込みたい動きが出る一方で、AI利用による追加手数料や価格上乗せなど、新たなビジネスモデルも生まれる可能性がある
・⭐️ユーザー側はエージェントの失敗時に人間のオペレーターが介入するような「テレオペレーション」サービスの需要が生まれる
・⭐️AI同士が連携して問題解決を行い、さらに行き詰まった際には人間が補佐する、という多段階構造のビジネスも今後出てくるだろう
・すでに一部の研究機関や企業では、GoogleやAmazonの偽サイトなどを作り、エージェントを訓練するためのサンドボックス環境を用意しているという話がある
・このように、分野ごとや環境ごとに段階的にAIが適用され、実績を積みながらゆっくりと汎用化していく流れがある
・⭐️ただし、いわゆる「次の段階」に進むにはまだ多くの技術的課題やインフラの整備が必要であり、当面は「チャット」「推論・推敲」「限られたエージェント的タスク」の段階に留まるだろう
・⭐️プログラミング支援分野ではすでに大きな生産性向上が見られ、特にベンチマークのスコア向上が急速であることから、今後さらにソフトウェア開発の形態が変わりうる
・⭐️ただし多ステップでの完全自動化はまだ困難で、人間のレビューや高次の意思決定は依然として重要である
・人間は他の人間の好みや判断を理解する能力に優れ、それがAIの好み(プリファレンス)の源泉となる
・AI開発では「どちらの回答が良いか」を人間が判定する形で学習(RLHFなど)する手法が主流になりつつあり、ソフトウェアエンジニアリングでもPRレビューのように最終判断を人間が行う形が想定される
・⭐️プログラマーはAIを使いこなし、監督・パートナーとしての立場を担う必要がある(💭プログラマは意識的にポジションを変えていく必要がありそう。o1、o3のプログラミングのベンチマークの異常な伸びを見る限り、純粋にコードを書くという面においてはAIに今年~来年くらいには勝てなくと予想される。今まで会社の手足だったプログラマは、自分が脳になりAIエージェントを手足とする必要がある。)
・⭐️高度なシステムを管理するにはプログラミングの専門知識が不可欠であり、一方でドメイン専門知識(航空宇宙、半導体、化学工学など)を持つ人材がAIを活用すれば大きな可能性がある
・各分野では旧来のプラットフォームやソフトウェアが使われている場合が多く、AIを活用して近代化や自動化する余地が大きい
・法的分野や行政分野でもソフトウェアによる効率化が期待されるが、既得権益や官僚主義が障害となる場合がある
・MetaのLlamaライセンスには特定の利用制限や名称使用の義務があり、オープンソースソフトウェアの定義から外れる部分がある
・DeepSeek R1は商用利用や二次利用に制約がない真にオープンなモデルを提示しており、こうした動きがオープンソースAIを進める契機になっている
・Stargateはテキサス州アビリーンに建設予定の大規模データセンター計画で、サム・アルトマンやラリー・エリソン、トランプ前大統領などが関わっている
・トランプ政権下(新政権という想定の設定)で連邦土地での建設許認可手続きが簡素化されたことや、テキサス州の送電網が独立している点などが建設加速の背景となっている
・Stargateでは総額1000億ドルから5000億ドル規模とも言われる計画が報道されているが、まだ資金面で不確定要素が大きい
・⭐️第1フェーズは2.2GW規模のデータセンターで、GPUなどのサーバー費用が約500億ドル、総所有コスト(TCO)としては1000億ドルとも見積もられる
・資金調達にはオラクルやソフトバンク、UAEの投資ファンドMGXなどが候補とされるが、すべて確定しているわけではない
・⭐️OpenAIは自社の出資分として190億ドルが必要とされるが、まだ手元資金が足りず、追加の大型投資を募っている段階
・⭐️トランプの関与は直接的な予算拠出ではなく、規制緩和や巨大インフラ建設を後押しする雰囲気づくりの面が大きい
・⭐️大規模クラスター建設には高いリスクや巨大資金が必要だが、今後のさらなるAIモデル性能向上や競争激化に備え、各社や投資家が注目している
・将来的にはネットワーク、特に光学技術やマルチデータセンター間での分散学習が重要になり、通信・光学部門での技術革新が期待されている
・⭐️巨大言語モデルの評価や発展には、サプライチェーン(GPU製造、電力、ネットワーク整備など)全体を見通す必要があり、そこにこそ大きな成長機会があると考えられている
・メモリやインターコネクト、データセンター間のファイバーなどの速度差について尋ね、それらが将来的に一体化して単一のコンピュータのように扱える可能性はあるのか?
・それは不可能であり、プログラミングはより複雑になり、メモリ階層やアクセスレイテンシの違いがなくなることはない
・メモリ階層として、チップ内のレジスタやキャッシュ、HBMやDDRなどのメインメモリ、多数のチップ間で共有するプール、データセンター内外のストレージやネットワークといった段階があり、アクセスコストが異なるため単一のプログラミングモデルで簡単には扱えない
・並列化によって性能を上げようとしても、リソースを倍にしたからといって必ずしも性能が倍になるわけではなく、効率上の課題が存在する
・DeepseekやGoogleなど、多くの企業や研究者がネットワークやプログラミングモデル、アルゴリズムなどを工夫してスケーリングを最適化しようと取り組んでいる
・ハードウェアのリソグラフィやエッチング、ファブリケーションからネットワーキング、冷却技術、電力やトランスフォーマー、ケーブルの高密度化といったレイヤーまで、人類はあらゆる階層で活発にイノベーションを進めている
・Dylanは半導体やAIモデル開発など、技術の最先端を分析・モニターする活動を行い、それが人類文明のデジタル面を俯瞰できる立場につながっていると語る
・モデルをトレーニングすることは非常に面白く、まだ多くの未開拓分野があると指摘しつつ、AI開発のオープン化が重要である
・より多くの人がAIに関わり理解を深めることで、技術の透明性や安全性が高まり、人類全体にとってより良い方向に進む可能性がある
・チェーン・オブ・ソートのような技術でモデルの思考過程を見ると、人間の知能や意識について改めて考えさせられる瞬間がある
・⭐️物理世界とのインタラクション、特にロボティクス分野では、センサーや低レベル制御といった課題がまだあり、現状の大規模言語モデルを使うだけで容易に解決できるわけではない
・⭐️人類が千年先まで存続する可能性を楽観視しており、大きなリスクが出てきた場合には人類はそれに対応してきた歴史がある
・⭐️人類全体への脅威よりも、AIやブレイン・コンピュータ・インターフェースを利用する少数の権力者が大きな力を得る「テクノファシズム」的な状況を懸念している
・⭐️一方で、AIが効率化を促進して経済的豊かさをもたらし、人類全体の苦しみを減らす可能性も高いという楽観的見方もある
・最終的には、こうした複雑な側面を伴いながらも、AIやモデルのオープン化、ハードウェアとソフトウェア双方での進化が今後も続くと予想される
(2/2)書き起こし→o1-pro翻訳
DeepSeekを理解するうえで“決定版”ともいえる動画が公開されました。レックス・フリードマン、ディラン・パテル(Semianalysis)、ネイサン・ランバード(Interconnects)の3名が、5時間にわたってDeepSeekを徹底的に議論しています。これまでで最も詳細にDeepSeekについて語った内容であり、一見の価値があります。以下まとめ
・DeepSeek R1はOpenAI o3-miniと同等の性能をベンチマークで示し、コストがさらに安いことやチェーン・オブ・ソート(思考過程)を表示できる点が特徴とされる
・o3-miniは推論表示を要約版として出力するが、DeepSeek R1は推論過程を完全に表示する
・R1はオープンウェイトであり、o3-miniはクローズドソースである
・実際に使ってみた感触ではo3-mini-highがR1よりも優れている側面もあるが、クロード(Claude)Sonnet 3.5がプログラミング用途には最適という話もあった
・高度なプログラミングにはo1 Proを使ってブレインストーミングする人もいるなど、それぞれのモデルに得意・不得意がある
・今後も米中双方を含むさまざまな企業から高性能の推論モデルが多数出てくる見込みで、コストの曲線はさらに下がり続ける
・⭐️DeepSeekのリリースは地政学的にも技術的にも重要な転機として5年後も語られる可能性が高い
・DeepSeek v3とDeepSeek R1は異なるポストトレーニングを経ており、v3は指示に従いやすいチャットモデル、R1は推論可視化と正解検証を重視するモデルとなっている
・R1は思考プロセスを表示(チェーン・オブ・ソートを開示)し、解答前に問題を分解する一連の過程が長文で出力される
・対照的に、一般的なチャットモデルは推論部分をユーザに見せず最終回答のみを提示する
・オープンウェイト(Open Weights)とはモデル重みが公開されダウンロード可能な形で提供されることで、誰でも自分の環境でモデルを実行できる
・オープンソースはさらにデータセットや訓練コードも含めて公開されるが、多くの企業モデルはそこまでは公開していない
・DeepSeekのライセンスはMITに近く商用利用も制限が少ないが、他のオープンモデルは使用制限がある場合も多い
・オープンウェイトのメリットはユーザのデータを外部に送らずにローカルで推論を実行できる点である
・DeepSeek v3は高性能なベースモデルで、その上にインストラクションチューニング(RLHF等)を行ったものがチャット版として公開されている
・DeepSeek R1はv3ベースに推論特化の新しい学習手法を加えており、数式やプログラミングのように検証が可能な領域で試行錯誤しながら正解に近づく仕組みが組み込まれている
・ポストトレーニングでは主にインストラクションチューニング、RLHF、推論強化学習(解が検証可能な領域に試行錯誤する)など複数の手法が用いられる
・DeepSeekは詳細な論文や技術レポートを公開しており、実装や学習プロセスの多くを具体的に示している
・OpenAIやMetaのLlamaと比較しても、DeepSeekは公開情報の豊富さやライセンスの自由度で注目を集めている
・DeepSeek v3はGPT-4、Llama 405Bなどと同等レベルの性能があり、Mixture of Experts(MoE)という手法の導入で学習や推論コストを下げている
・Mixture of Expertsは巨大モデルのパラメータ全部を常に使わず、タスクに応じた専門の一部パラメータのみを活性化することで効率化を図る
・DeepSeek v3は合計6000億以上のパラメータを持つが、推論時には約370億パラメータのみを使うため、リソース節約が可能になっている
・MLA(Multi Latent Attention)という新技術も導入され、CUDAレベルでの最適化も含めて非常に効率の高い学習が行われている
・こうした技術スタックによって、DeepSeekは大規模なモデルを低コストかつ高速に動かすことに成功している
・Transformerは注意機構(アテンション)と全結合のMLPを交互に積み重ねる構造で、Mixture of Experts(MoE)は主にこのMLP部分に適用される
・TransformerモデルではMLP部分が最もパラメータ数を多く占めるため、MoEを使うことで推論時も学習時もパラメータをすべて活性化せずに済み、大幅な効率化が可能となる
・深層学習は長年にわたりモデルが大規模化してきており、スケーリング則(bigger is better)が確認されているが、その「大きさ」にはいろいろな側面がある
・MoEを採用すると学習効率を大幅に上げられる可能性があり、実装次第では同等性能を得るのに必要な計算量を30%ほど削減できることもある
・しかしMoEを実装・運用するには高い複雑性が伴い、大規模モデルほどその恩恵は大きいが実装の難易度も上がる
・DeepSeek(DeepSeqとも表記)はMoEを極めて上手に実装しているとされ、Mixture of Expertsを古くから研究・活用してきている
・DeepSeekの「Multi Head Latent Attention(MLA)」はメモリ使用量削減を狙った仕組みで、Positional Embeddingの手法(RoPEなど)との組み合わせや低ランク近似など、多くの技術を複雑に実装している
・このような大規模モデルの効率的実装には、CUDAやNvidiaの通信ライブラリ(NCCL)を活用するが、DeepSeekはさらに低レイヤーのレベルで通信スケジューリングを最適化している
・NCCLはGPU間通信の標準ライブラリだが、DeepSeekはGPUコア(SM)のどれを計算に使い、どれを通信に使うかまで細かく制御することでさらなる高速化を実現している
・こうした低レベル最適化はモデルサイズやアーキテクチャに強く依存し、一般性は下がるものの、DeepSeekの環境では必要性から大きな成果につながったと考えられる
・多くの既存MoEモデルはエキスパート数が8や16で、そのうち2つ程度を活性化するが、DeepSeekは256のエキスパートから32を活性化するといった高いスパース化を行っている
・高いスパース化ではエキスパートの割り当てやGPUのロードバランスが極めて難しく、特定エキスパートに入力が集中すると他が遊んでしまう問題が生じるため、高度なルーティング制御が必要となる
・MoEではエキスパートの使用バランスを保つために補助損失(auxiliary loss)を用いることが多いが、DeepSeekは損失関数に頼らないパラメータ追加型のルーティングでエキスパートの負荷を調整している
・こうしたアーキテクチャ上の工夫は、各企業や研究機関でも研究されていると推測されるが、DeepSeekはそれを公開し、モデルや重みを公開している点が特徴的である
・スケーリング則や「The Bitter Lesson」は、人間による複雑な帰納バイアスよりも、大量の計算資源を投入して単純な学習や探索を行うアプローチが最終的に勝りやすいという考え方を示している
・MoEのような実装上の改良が「Bitter Lesson」の文脈でどこまで長期的に重要になるかは未知数だが、大規模計算をいかに効率よく回すかは当面の大きな焦点になっている
・高い汎用性をもつライブラリ(例:NCCL)は広範囲の状況で動くが最適化の余地が残り、DeepSeekのように特定アーキテクチャ向けに最適化したコードは高性能だが汎用性が下がる
・大規模学習を行うには、まず小規模の実験(アブレーションスタディ)で多数のハイパーパラメータや構成を試し、最後に巨大資源を投入する「YOLO run」を実行するスタイルが一般的
・「YOLO run」は実際に何百億円単位のコストがかかることもあり、学習途中の損失値の暴走(loss spike)や学習崩壊が起こると多大な損失につながるため、研究者は非常に神経を使う
・学習が停滞したように見えていても突然急激に性能が向上する(grokking現象)こともあり、損失曲線の監視は単純ではない
・データ中に「Microwave Gang」のようにアルファベットMばかりが連続する特殊なケースがあると、モデルの予測との乖離が大きく一時的に損失が暴騰するなど、実装以外にもデータ由来の問題がある
・学習中に損失が吹き飛んだ場合は、直前のチェックポイントに戻って学習を再開することが多いが、回復しない場合もあり、非常にコストがかかる
・全ての大手研究機関が大規模学習における失敗を経験しており、実験的要素を伴う以上、これは不可避である
・結果的に、こうした失敗の繰り返しから得られたノウハウと実装の積み重ねが、DeepSeekのような高性能モデルの開発につながっている
・大規模モデル開発には、理論的アイデアだけでなく、データ・実装・エンジニアリング・ハイパーパラメータといった複合的な最適化が必要であり、その小さな積み重ねが最終性能を大きく左右する
・訓練後の段階で作業するメリットとして、GPUのコストが低くなるためより多くのYOLO的なトライを可能にする
・将来的には変わる可能性があるとし、運の要素はスキルでもある
・一見幸運に見えても、実際はデータ改善などの局所的な試行錯誤の積み上げでモデルの性能が向上する面が大きい
・モデルがある領域で明らかに弱い場合に対処するローカルな改善を積み重ねることが重要
・巨大な探索空間のなかで限られた時間とリソースしかないため、リリーススケジュールに追われながらも効果的なアプローチを選択する必要がある
・2025年は各社がYOLO的な大規模学習を積極的に行う年になると指摘し、OpenAIの2022年時点での大胆な訓練投資が例になる
・OpenAIが2022年にまだ実績の少ないアーキテクチャであるMixture of Expertsを用い、限られたリソースをすべてGPT-4に投下したのは非常にリスキーだったが結果を出した
・DeepSeekはHigh Flyerというヘッジファンドに属しており、アルゴリズム取引にGPUを多用してきた歴史がある
・2021年時点でDeepSeek(High Flyer)は中国最大規模と称する1万枚のA100 GPUクラスターを所有していたと公表している
・輸出規制の議論が起きる以前から大量のGPUを保有していたため、中国国内にある程度の大規模学習が可能なリソースを確保していた
・DeepSeekの実際の保有GPUは5万枚程度に及ぶと分析しており、これはファンドのクオンツ業務や研究、言語モデルなど多岐に活用されている可能性がある
・DeepSeekは最新モデルV3の事前学習にH800を2000枚使用したと発表したが、これは研究や小規模実験を含む全体のGPU使用量を反映するものではない
・H800はH100の中国向け制限版であり、演算性能はほぼ同じだがインターコネクト帯域が制限されている
・実際の大規模学習では事前学習以外の実験やアブレーションにも同程度のGPUリソースが使われることが多い
・Hopperアーキテクチャ(H100とH800)について、政府の輸出規制について、当初は演算性能とインターコネクト帯域の2つの要件で制限がかけられたが、後に演算性能を主軸とした制限に変わり、NVIDIAはそれに合わせたチップを設計していると述べた
・最新のH20はインターコネクト帯域はH100と同等以上だが演算性能が落とされているなど、輸出規制を回避する形で改良されている
・Anthropic CEOのDario Amodeiの輸出規制に関するブログをに関して、強力なAIが軍事的な優位をもたらす可能性からアメリカ政府は中国を遅らせたいのではないか
・⭐️現実的には中国が大規模学習を完全に止められるわけではないが、推論(インファレンス)などの大規模利用を制限することは可能かもしれない
・強力なAIによる経済成長や軍事転用は大規模な推論に依存するため、アメリカは計算資源をより豊富に使える状況に留まることで優位性を保てる
・今後のAIにおいては推論時の高い計算コストを要する「推論段階での高度な推論モデル」が鍵になる
・OpenAIのo3モデルの例として、ARCテストを解く際に1問あたり数ドルから数十ドルの推論コストがかかるため、大規模GPUが必須
・このように複雑な推論を実現するモデルが増えれば推論のためのGPUリソースが大量に必要になり、それが中国に対する輸出規制の狙いと合致する
・Darioの言う「スーパー・パワフルAI」(AGIよりも軍事的優位性をもたらすレベル)を使えば世界的な影響力が大きく変わる
・⭐️言語モデルですでに汎用知能と言える部分があるが、今後は自律的に動くエージェント型AIが求める推論コストが飛躍的に大きくなる
・⭐️輸出規制は中国のAI大規模利用を抑止し、アメリカの優位を保つ
・DeepSeekのCEOであるリャンは、中国でオープンなAIエコシステムを構築することに意欲を示しており、中国がソフトウェアエコシステムで先導しなかった歴史を挽回したいというAGI志向の考えを持っている
・レックスがリャンが英語メディアでインタビューをする可能性について尋ねたが、実際にはまだ実現していない
・DeepSeekは、中国内での大規模GPUリソースを背景に、オープンかつ強力な言語モデルを育てようとしているが、アメリカ側の輸出規制による制限が今後の推論リソースにどのように影響するかが注目点となる
・Darioは2026年までに強力なAI(agenticな能力を持ち、安全保障上の脅威となるレベル)が出現する可能性を示唆している
・Nathanは具体的な能力の到達時期を予測するのは難しいが、今後数年で大きな進歩が続くと考えている
・⭐️DeepseekがR1を公開したことにより、従来のChatGPTのような漸進的進歩の延長だけでなく、新たなモデル改変による急激な進歩が起こり得ることを示唆しており、それが不安を助長している
・⭐️OpenAIが提供するオペレータモデルやAnthropicのClaudeのようなエージェント的アプローチはまだ十分に完成していないが、今後のブレークスルーによって大きく進化する可能性がある
・⭐️Nathan自身はDarioたちの短期的な予測よりも少し遅い2030年前後をAGIの可能性として考えている
・Dylanは「すでに政治・社会・軍事に対してAIが深刻な影響を与えつつある」という視点を持ち、例えばインドやパキスタンの選挙で有権者へのAI音声コールが行われるなど、世界で起きている事例を挙げている
・AIによる大規模な誤情報拡散は想定よりまだ顕在化していないという研究結果もあるが、音声や映像など測定の難しい領域での利用は今後増える可能性がある
・⭐️軍事・防衛の観点では、大規模なドローンの自律運用などについて、実際には人間のオペレータが操縦する方が現状は優位だが、2030年前後までに大きく変わる可能性がある
・⭐️サイバー攻撃や社会インフラへの攻撃(電力網を停止させる等)が行われれば、数日単位でも社会混乱が避けられず、AIがその攻撃を支援できる段階に入ると世界の景色は大きく変わる
・AIと地政学の関係では、米国が半導体輸出規制(特に対中国)を強化している。これは軍事やAI開発での優位性を維持する目的があり、AIの進化に合わせて重要度を増している
・中国は産業規模・人材数ともに巨大であるため、もし中国政府が「スケール重視(scale pilled)」を本格的に打ち出せば、米国より早く大規模なAIの実用化に踏み切れる潜在力がある
・⭐️現状では中国が半導体製造装置(特にEUVリソグラフィ装置など)を自力で完全に開発・量産できない点が弱みだが、補助金や国家的投資で急速に追いつく可能性がある
・長期的視点だけを考えると、米国による対中輸出規制は中国の技術自立化を促進し、最終的には中国側が優位になるリスクがある
・⭐️ただし、AIが5年から10年以内に大きな軍事的・政治的インパクトをもたらすと考えるなら、短期的なアドバンテージを確保するために現行の規制は米国にメリットがあるとも言える
・⭐️一方で規制により中国が台湾に軍事的行動を起こすリスクも指摘されている。台湾のTSMCが最先端半導体製造で世界をリードしているからである(他の資料を読んでいても、DeepSeekの登場を契機に米中台の地政学的リスクが一気に顕在化したと感じる。)
・台湾TSMCは「ファウンドリ専業」というビジネスモデルで世界各国・各企業のチップを受託製造し、莫大な投資を継続している。最先端のプロセスを実現するための製造装置や施設には毎回数十億~数百億ドル規模のコストがかかる
・かつてはAMDやIBMなど、多くの企業が自社でチップを設計・製造していたが、製造のコストと技術的難易度が跳ね上がった結果、TSMCに製造を委託する流れが加速した
・Nvidiaは「ファウンドリ時代」に誕生し、当初からTSMCと提携して自社のGPUを製造してきた代表例である
・IntelやSamsungでさえも最先端プロセスのチップ生産でつまずき、TSMCに生産を依頼するケースが増えている
・米国はTSMCに米国内で最新ファブを建設させる方向を進めているが、製造技術やサプライチェーンの大半は台湾にあり、地政学的リスクが高まっている
・現在の世界の半導体・AI開発のパワーバランスは、TSMCのプロセス技術とファウンドリ能力、そして中国の巨大な産業・資金力、米国の規制と軍事・投資の動向が複雑に絡み合っている
・ファウンドリモデルが成功している背景として、ファブ(工場)の建設費用が莫大であり、先端的な半導体プロセスの研究開発が非常に困難であるため、大規模生産によるコスト回収(スケールメリット)が重要になっている
・かつて多くの企業は自前の垂直統合(独自ファブでの製造)を行っていたが、プロセスやチップが高度化・多様化する中で設備投資と開発リスクが増し、専業ファウンドリに依存する方向にシフトしている
・ムーアの法則やDennard Scalingが限界に近づき、チップの高性能化が製造技術だけでは達成しにくくなった結果、アーキテクチャ面での革新や多種多様な用途に応じたチップ設計が進んでいる
・Googleのように多種多様な用途(YouTube向け専用チップ、TPU、Pixel用チップなど)でカスタマイズされたチップを多数使う例が一般化し、大量のチップを製造できるファウンドリが必要になっている
・車載用でも膨大なチップが使われ、ドアハンドルにまで複数のチップが入るなど、需要の拡大と多様化が進んでいる
・ファブの建設コストは指数関数的に上昇しており、小規模プレイヤーでは生産量が不足して投資を回収できず、結果的に生き残れない
・製造装置やプロセスのわずかなミスや不具合が致命的な収率低下を招くため、長期にわたって先端プロセスを安定稼働できる技術力や資本力を持つ企業が限られる
・Intelはかつて20年以上にわたり先端プロセスをリードしていたが、経営判断ミス(iPhoneへの供給拒否など)や製造プロセスでの遅れ、社内文化などが原因で遅れを取るようになった
・AMDは自社ファブを手放してGlobalFoundriesを設立し、設計に専念することで再興に成功した例がある
・ファウンドリ企業の中でもTSMCは顧客対応とプロセス技術に特化し、世界最先端の大量生産能力を備えることで多数の企業の依存先となっている
・TSMCは台湾を拠点としており、高い技術力を持つ人材がトップ層から集中する文化、長時間労働や地震時の即時対応などのハードワークが常態化している点などが強みとなっている
・アメリカでもIntelなどが一時は先端製造でリードしていたが、企業文化の問題や顧客対応力の不足などでTSMCに追い越された
・TSMCやSamsung、Intelなどが行う先端プロセスのR&Dは、台湾の新竹、アメリカのオレゴン州ヒルズボロ、韓国の平沢など限られた地域で集中しており、量産拠点が別の地域に広がっていてもR&D拠点への依存が強い
・アメリカではCHIPS法などで数百億ドル規模の支援策を打ち出しているが、ファブ投資全体から見れば十分とは言えず、完全な国内生産回帰には長い時間と莫大な資金が必要
・他国では中国が大規模な補助金を投じ、先端プロセスはまだ遅れがあるものの、トレーリングエッジ(成熟プロセス)を中心に多くのファウンドリを育成している
・中国は米国の輸出規制によって先端プロセスへのアクセスが制限される一方、電気自動車用などの幅広いアナログ・パワー系ICを国内生産化して依存度を下げる方向にシフトしている
・⭐️今後、米中関係はさらなる分断の方向へ進む可能性が高く、互いに相手国からの技術や製品の依存を減らそうとする動きが続くと見られる
・⭐️グローバル覇権の交代期には歴史的に紛争が起こりやすく、一極支配から多極化へ進む際は地政学的リスクが高まる
・⭐️TSMCの工場を海外に建てても、R&Dセンターが台湾などに集中しているため、台湾での地政学リスクが世界の半導体供給に直接影響を及ぼす
・文化的背景として、台湾では最優秀層が半導体企業に集まり、真夜中の地震でも自発的にファブに駆けつけるほどの労働意識がある一方、アメリカではトップ人材がIT企業など他の業界へ流れやすい傾向がある
・アメリカが先端製造を国内回帰する場合、移民を受け入れて人材を確保する手段もあるが、政治的に議論が難航している
・⭐️トランプ前大統領が台湾への関税を示唆するなど、米国内へのファブ誘致を促す動きもあるが、実際の効果は未知数であり、コスト面や技術面での課題は依然大きい
・⭐️総合的に見て、半導体産業の将来は米中対立と地政学リスクの高まりが続く可能性が強く、TSMCやSamsung、Intelなど、限られた企業・地域に大きく依存する構図が当面は続くと考えられる
・AIの国際競争は代理戦争のような形をとる可能性がある
・世界情勢の不安定化はすでに進んでおり、長期的な平和が続くかは不透明である
・米国はAIをリードすることで世界的ヘゲモニーを維持しようとしており、それが平和をもたらすかは疑問もある
・中国側が不利になる可能性を指摘する声もあり、世界規模で見れば負の影響が出るとの見方がある
・GPUのハードウェア仕様は大きく「演算性能(FLOPS)」「メモリ帯域幅・容量」「チップ間インターコネクト」の3要素に分類される
・米国の輸出規制では当初FLOPSとインターコネクト帯域を規制対象にしたが、その後FLOPSのみを規制対象に変更した
・NVIDIAが中国向けに出しているH20(H800やB20などの後継含む)はFLOPSが制限されている一方で、メモリ帯域幅や容量は強化されている
・⭐️H20は推論(reasoning)用途には有利だとされ、米国側はこれをさらに規制する動きがあるとの見方がある
・Transformerの仕組みでは「アテンション機構」が重要で、Q(クエリ)・K(キー)・V(バリュー)の3つの行列が計算される
・自己回帰型の言語モデルは1トークン生成ごとに前のトークン情報をKVキャッシュとして保持し、次の生成で再利用する
・入力トークンの処理は並列化可能なため比較的コストが低く、出力トークンは逐次処理なのでコストが高い
・OpenAIが入力トークンより出力トークンの課金を高く設定しているのは並列化の可否の違いに起因する
・長いコンテキスト(例:本の全文など)を扱うとアテンションの計算量は二乗に増え、KVキャッシュのメモリ使用量も急増する
・新たな推論用途(reasoning, chain-of-thought, エージェントなど)では生成されるトークンが非常に多いため、メモリ負荷が大きくなる
・DeepSeekは独自アテンション方式(MLA: multi-head latent attention)などによりメモリ使用量を大幅に削減している
・DeepSeek R1のAPIは高性能かつ安価で、OpenAIのo1より大幅に低コスト(27倍近い差)が報告されている
・⭐️OpenAIは推論サービスで75%以上の高いマージンを得ているが、研究開発コストを補うには十分でないため資金調達も続けている
・DeepSeek R1のモデル重みはオープン化されており、他社も提供を試みているが多くはコストやスループットの問題が大きい
・⭐️理由としては、大規模推論環境の構築やKVキャッシュの管理などが難しく、OpenAIやDeepSeekほどの効率化ができていないためだ
・⭐️結果としてDeepSeek自身がR1の商用APIを最も低価格・高性能で提供できている点が注目されている
・トレーニングコストだけでなく推論コストの削減技術が今後の競争力を左右する
・⭐️DeepSeekはGPUリソース不足のため、ユーザー向けのモデル提供が制限されている
・⭐️OpenAIはMicrosoftと連携し大規模GPUを保有しており、DeepSeekにはそのような大規模運用は難しい
・⭐️DeepSeekはAPI提供で利益を得ているかは不明であり、実際には収益化がうまく進んでいない可能性がある
・DeepSeekの推論コストが他社と比べて格段に安価なのは、モデルアーキテクチャやMoE構造、独自の効率化が要因と考えられる
・⭐️DeepSeekを支援しているヘッジファンドが資金源となっており、中国政府の直接的な補助金は受けていないと推測される
・DeepSeekのCEOは独自の考え方を持ち、政府寄りではない姿勢が見られるため、中国政府との密接な関係は薄いと見られている
・DeepSeekはこれまで大きな資金調達を行っておらず、主にヘッジファンド側の資金でモデル開発を続けている
・⭐️リリースのタイミングに関する陰謀説(NVIDIA株やアメリカのAI企業株を空売りし、大きなリリースで市場を動かす等)はあまり根拠がないと見られている
・⭐️DeepSeekはリリースを素早く行っており、Anthropicなどの企業が慎重な安全性チェックに時間をかけるのと対照的である
・⭐️Anthropicは安全性・チェーン・オブ・ソート公開のリスクを重視しており、モデル完成からリリースまで数か月の遅れがあることが指摘されている
・⭐️サンフランシスコ界隈では、AnthropicがOpenAIより性能が高いモデルを開発済みだが、安全性上の理由でリリースしていないという噂がある
・DeepSeekは一方で「危険だからと公開を遅らせる」というより「早く出す」方針をとっており、安全性基準は他社より低い可能性がある
・⭐️このような安全性の差はAIレースにおいて「ソビエトとアメリカの宇宙開発競争」に例えられ、結果として米国企業の安全基準も引き下げられる圧力がかかる可能性がある (ありそう)
・オープンソースモデルが世界的にスタンダード化していくとき、国や企業による検閲や誘導(政治的・文化的バイアス等)が組み込まれるリスクがある
・⭐️オープンソースAIであっても、隠れたバックドアや文化的・政治的誘導が潜む可能性が指摘されている
・⭐️「超人的な説得力(superhuman persuasion)」が「超人的な知性(superintelligence)」より先に実現する危険があり、意図的に人々の思考を誘導することが技術的には可能になる
・すでにレコメンデーションシステムはユーザーの注意を奪う方向に特化しており、将来的には対話型AIが同様の手法でユーザーの時間を奪い、思考に影響を与える懸念がある
・アダルト産業は常に新技術を早期採用する傾向があり、生成系AIや対話ボットが既に取り入れられている
・現在の多くのモデルでは、「危険ワードに対して回答拒否する」ような簡易的なフィルタリングが行われているが、プレトレーニング時に知識が含まれてしまえば完全に削除は困難
・GeminiのBlack Nazi事件(画像生成における自主規制)は「アラインメント」や「検閲」の代表例として挙げられ、政治的・文化的に不都合な事柄を事後的に調整している様子が見られる
・天安門事件に関する事実は中国製モデルで答えがブロックされるなど、各国や企業によって特定の検閲がかかる現象が既にある
・⭐️技術的にはプレトレーニングデータでの情報削除、RLHFによる後処理、追加のシステムプロンプトなど、複数の段階で検閲や改変が起こる可能性がある
・⭐️事実をモデルから「削除」するにはプレトレーニング段階で完全に除外する必要があるが、インターネット上の情報を丸ごと排除するのは実質的に不可能に近い
・SNSやネット断ちによって人間が「情報への依存度」を下げられることを実感する一方、AIがさらに進歩すれば、人々の思考を誘導する力がより強くなると危惧されている
・⭐️最終的に、オープンソース・クローズドソースにかかわらず、AIモデルの開発・公開が国際競争と深く結びつき、安全性とリリースのスピードをめぐるジレンマが高まっている
・検閲の難しさとして、天安門事件のような特定単語を直接フィルタリングしても、言い換えや暗号化などに対応しづらい問題が指摘されている
・インターネット自体がそもそも若年層や富裕層などが多く参加している傾向から、わずかに左寄りのバイアスを持っている可能性があるという意見がある
・大規模言語モデルのトレーニングでは、特定の政治的・思想的傾向を除去するには非常に多大な労力が必要になる
・各社はRLHF(人間のフィードバックによる強化学習)などの技術を使い、最終的なモデルを制御・安全化しているが、それでも十分とは言えない
・⭐️Elon Muskが開発を進めるGrokのように、モデルに過度な検閲を施さず、自由度を高めようとする取り組みもあるが、学習データに偏りが入り込むのは避けがたい
・モデルの動作制御には大きく分けて、事前学習(pre training)と事後学習(post training)がある
・事前学習ではウェブ上の莫大なデータを一括して学習させるため、特定のバイアスや不適切な内容は消しにくい
・事後学習にはRLHFやシステムプロンプトの書き換え(prompt rewriting)などがあり、モデルの最終的な応答をコントロールするために使われる
・Llama 2チャットモデルは過度な安全強化が原因で「Pythonプロセスをkillする方法」を聞いたときに、殺人関連の質問だと判断して拒否するような誤動作があった
・これによりRLHFがモデルを“馬鹿にする”という批判が出たが、実際にはRLHFには性能向上のメリットも大きい
・RLHFによってコードや数学のタスクなどが大幅に性能向上する事例もあり、各社が大規模に活用している
・Googleが内部で行ったGeminiモデルのサービング時に、システムプロンプトの書き換えが原因で誤った応答が返る事例があり、組織的なエラーと考えられている
↓に続きます
(1/2) ... (続き)
・人間によるアノテーションデータは、以前は数学やコードの分野で詳細な解答例を作るのに使われてきたが、今ではモデルのほうが優れた回答を作れる場合が増えている
・それでも人間による比較評価(ペアワイズ比較)は依然として重要で、RLHFはそうした人間の好みや基準を取り入れながらモデルを最終調整している
・チェーン・オブ・ソート(chain of thought)による推論プロセスが注目されており、Deep SeekやR1などの研究で強化学習を活用することで新たな推論様式が自発的に生まれる事例が報告されている
・人間が推論プロセスを一つ一つ書き与えなくても、最終的に答えを検証する仕組み(報酬)さえあればモデルが自力で推論過程を発見できるという点はAlphaGoやAlphaZeroの自己対戦を思い起こさせる
・⭐️AlphaGoが人間の棋譜(模倣学習)を起点にしていたのに対し、AlphaZeroでは人間のデータを使用せず、より高いパフォーマンスを得た例は「ビター・レッスン(Bitter Lesson)」の考え方と一致する
・言語モデルでも、自己回帰的に複数の解を試し、正解に近い経路を残す強化学習的手法が効果を上げ、思考プロセスが emergent(自発的に発現)する可能性がある
・⭐️特にコードや数学のように答えが厳密に検証できるタスクでは、生成された解答をテストして正解を選ぶことが可能で、その繰り返しによってモデルが推論力を高めていく
・⭐️今後はウェブ操作やロボット制御といった「行動を無数に試して正解を得られる」領域で自己学習が進むと、予想外の学習効果が出るかもしれない
・⭐️具体例として、モデルがウェブ上でアカウントを作成し、何度も失敗しながらも最終的に多くのフォロワーを得るなど、金銭的あるいは社会的に検証可能な目標を達成する可能性がある
・⭐️こうした環境はオンラインでもロボットでも「無限のプレイグラウンド」となり、そこから得られる報酬で学習したモデルが、従来の事前学習を超える知能に到達するシナリオが議論されている
・ただし非検証的なタスク(例: 単に雑談をするなど)では、チェーン・オブ・ソートを強化学習に活用する仕組みがまだ十分確立していない
・一方、数学やコードの分野ではすでに「大半が解かれてしまった」ような状況で、より先鋭的な問題領域(大学高学年レベル以上など)でのみ未解決部分が残っている
・このように、RLHFやchain of thoughtによって推論力を高めるアプローチは今後さらに拡大すると考えられている
・OpenAIの新モデルo3-miniがリリースされ、o1やR1など既存のモデルとの違いが議論された
・⭐️DeepSeekが公開したR1のような「推論特化型の追加訓練」を行うモデルが注目されており、数学やコードへの特化がどの程度他分野に汎化するかが大きな疑問点として挙げられた(Reasoningが検証が難しい分野にまで汎化するかどうかに関しては、専門家の中でも意見が割れているように見える)
・⭐️数学やコード能力を強化したモデルは他の分野での表現力がやや弱まる傾向があり、その「生煮え」感(完全には調整されていない感じ)も含めてモデルの評価が行われている
・Gemini Flash 2.0とDeepSeek-R1、OpenAI o1-proなどはチェーン・オブ・ソート(思考の過程を表示する形式)を用い、数理的推論力を高めているが、出力の流暢さや柔軟性に差異がある
・モンテカルロ木探索のような検索的アプローチが推論プロセスに導入される可能性が示唆され、実際に並列サンプリングを行い正解を選ぶ仕組みが使われている事例もある
・⭐️DeepSeek R1はGPT3並のモデルを数百万ドル程度で作ったと公表され、巨大なモデル開発コストに対する認識が揺らいだが、研究費や人件費、推論コストなどは含まれていないため単純比較は困難とされた
・GPT3から始まった推論コストの大幅な低下トレンドが加速しており、数年で1トークンあたりの価格が数十ドルから数セント台にまで落ちてきた例が提示された
・⭐️OpenAIのo1 Proは月額200ドルで提供されており、単独では採算が合わない可能性が指摘されつつも、今後の大規模展開を見据えた試みと見られている
・推論時の並列実行(多数回サンプリング)による性能向上は計算資源を大量に消費するが、ハードウェアとソフトウェアの進歩により将来的にはコストが低下するだろうと予測された
・⭐️大規模なAI訓練・推論に対する需要が増えることでGPU需要は依然として高く、Nvidiaの株価変動は短期的なセンチメントの影響も大きいが、本質的にはJevonのパラドックス(コストが下がると需要が増える)のようにより多くのGPUが必要になると考えられている
・⭐️Blackwellなど次世代GPUに関する噂や「スケーリングが頭打ち」という議論がある一方で、o1やR1の登場により依然としてモデル性能は大きく向上すると見る専門家も多い
・⭐️Nvidia H100やH200は需要が高いためクラウド上での確保が難しくなっており、大規模デモのためにGPUを手配するのも困難なケースがある
・GPT4も当初100万トークンあたり約60ドルだったが、すでに数ドルまでコストが下がっており、今後さらに安価になる可能性がある
・モデルの思考過程を可視化するチェーン・オブ・ソートには「ステップごとの推論」を見られる面白さがあるが、一方でプライバシーやセキュリティ上の懸念も存在するとされる
・例として「人間の新奇な本質についてのアイデア」を出力させたとき、DeepSeek R1は「人間はお金や法律といった抽象的存在をゲーム化することで利己的欲求を社会全体の利益に転換している」という洞察を示した
・Gemini Flash 2.0は「人間は自己家畜化した類人猿である」という視点を提示し、社会的・認知的能力をそこから説明しようとする新奇なストーリーを展開した
・OpenAI o1 Proはより洗練され多様な分野に対応可能な回答を出せるが、場合によってはR1などの方が数理に特化した厳密な回答をすることもある
・o3-miniは高速で汎用的な回答が得意だが、哲学的・創造的問いへの応答の深みではo1 ProやR1に及ばないケースも見られる
・⭐️Nvidia株価の動きについて、中国側の「不正行為」疑惑などが影響した可能性があるとの指摘があった
・⭐️AIの進歩が急加速するほど、Nvidiaの市場規模が拡大するとされ、現状ではNvidiaが最も信頼されるGPU企業と見られている
・⭐️Nvidiaの競合他社が新たに登場したわけではなく、中国企業もNvidia製品を大量に使用している
・⭐️ByteDance(TikTok運営企業)は中国最大のNvidia顧客の一つであり、GoogleやOracleなど世界中のクラウド企業からもGPUを大量にレンタルしている
・⭐️GPU密輸の規模は、小口の例として個人がサーバを米国から中国へ手荷物で持ち込むケースがあり、大口としてはシンガポールやマレーシアの企業経由でルートを構築する例があるとされる
・バイデン政権とトランプ政権が導入した「AI拡散(拡大)制限ルール」により、中国企業が大規模なGPUクラスターを合法的にレンタル・購入することは制限されている
・具体的には、2,000GPUを超えるクラスターや1,500GPUを超える出荷が制限対象で、これにより中国側が大規模モデルをトレーニング・推論するハードルが高くなっている
・巨大言語モデルを提供する中国企業(DeepSeekなど)は、推論用のGPU不足でユーザーに十分なサービスを提供できない状態が見られ、モデル性能に比べ推論処理が追いつかない問題がある
・⭐️米国企業によるGPU提供制限と、密輸などの迂回ルートを踏まえると、中国が大規模モデルを維持・拡大するのは難しくなる可能性がある
・大規模モデルの開発手法として、他社の強力なモデル出力を学習データとして利用する「蒸留(ディスティレーション)」が一般的に行われている
・OpenAIのChatGPT出力を無断で学習データに使う行為は、OpenAIの利用規約(競合製品の開発禁止)に抵触する恐れがあり、倫理的・法的に議論の的になっている
・同時に、AIがインターネット上の膨大な著作物を学習データとして使用している点についても、権利関係・利用許諾の問題が各国で議論されている
・⭐️日本では、学習目的でのデータ利用について著作権の例外規定があり、AI開発に有利とされる一面がある
・産業スパイや情報流出に関しては、企業の人材引き抜きやパーティなどでの口頭情報共有が大きな要因となるとされ、技術的な機密保持は難しいと指摘されている
・ハニートラップなどによる産業スパイ行為も取り沙汰されており、AI分野のエンジニアが標的になりやすい可能性がある
・⭐️大手企業のAI用メガクラスター(巨大GPUクラスター)の建設が各地で進められており、データセンターの電力消費は従来の2~3%から10%近くにまで拡大する見込みがある
・Metaなども大規模なデータセンター増設を進めており、今後の推論需要の急増に対応しようとしている
・⭐️大規模化が進むにつれて、中国が手に入れられるGPU数との格差が顕著になり、世界的なAI開発レースでの不均衡が生じる可能性がある
・⭐️DeepSeekのような大規模モデルを持つ中国企業も、インフラ不足で推論提供に支障をきたす一方、海外のクラウド経由でのGPU調達には制限がかかっている
・OpenAIなどの先進モデルを参考にして効率化を図る中国企業の存在がある一方、米国側は規約や輸出規制を強化している
・蒸留や学習に用いるデータの正当性やライセンス問題は今後さらに大きな論点となる見通しがあり、各国の法整備や国際的な協定の動きが注目されている
・クラスターとは、大量のGPUなどをまとめて配置し、高速なネットワークで接続してAIの訓練や推論を行うための大規模データセンターを指す
・⭐️従来のデータセンターはウェブ検索や広告配信など分散的に処理する用途が中心だったが、大規模言語モデルなどの訓練と推論が加わり、より密に接続されたGPUクラスタが必要になっている
・⭐️AIの推論(インファレンス)は多くの場所に点在するGPUで行うが、巨大モデルの訓練には大規模なクラスタを一箇所に集約する必要がある
・AlexNetでGPUが使われ始めた当初は数枚のGPUでの訓練が画期的だったが、GPT-3やGPT-4では何万ものGPUが投入されるようになり、規模が飛躍的に拡大している
・GPT-4の訓練には約2万枚のA100 GPUが使われ、推定で15~20メガワットの電力を要したが、最新ではそれを上回る大規模クラスタが続々と登場している
・MetaやOpenAIは数万~10万規模のGPUを使い、推定100メガワット超の電力を要するトレーニングクラスターを運用している
・⭐️イーロン・マスクのXAIはメンフィスで工場跡を買い取り、20万枚のGPUを配置する世界最大規模のクラスタを構築している
・⭐️その施設では発電所を増強し、天然ガスを直接利用した発電やテスラの大容量バッテリーシステムなどを導入して膨大な電力を賄っている
・メガクラスター構築には電力・熱・ネットワークの3要素が大きな課題であり、特に電力と冷却をどう確保するかが重要になっている
・⭐️冷却方式は従来の空冷から水冷に移行しており、イーロンのメンフィス施設では大規模な水冷システムと外部に並ぶ巨大なチラー装置でGPUを冷却している
・⭐️電力需要は各社がギガワット(数千メガワット)規模のデータセンターを目指すレベルにまで達しており、核発電所レベルの発電能力を要する事例もある
・⭐️グリッドからの送電よりも、近くに直接発電所を建設して供給する方が効率的な場合も多く、Metaはルイジアナで天然ガス発電所を、OpenAIはテキサスで大規模施設を計画している
・⭐️再生可能エネルギーや原子力発電も候補だが、建設に時間がかかるため、当面は天然ガスなどの火力発電が主流になっている(SMRがよく話題になるが、AGIが早ければ2026年~2027年にも誕生すると言われていることを考えると、そこには間に合わなそうである)
・⭐️環境への影響や持続可能性の懸念はあるものの、AI競争においては電力を確保することが最優先と考える動きが強い
・⭐️クラスタの電力使用にはピークやスパイクがあり、GPUの訓練ステップ間の勾配同期のタイミングで消費電力が大きく変動するため、電力インフラとの連携が難しい
・MetaのPyTorchには“Pytorch power plant no blowup”というオプションがあり、同期時の電力スパイクを緩和する仕組みが追加されている
・⭐️こうしたクラスタの拡大競争は「誰が最大のクラスタを持つか」という話題になりがちで、現在単一拠点最大はXAIの20万GPU規模が最上位とされている
・⭐️AmazonとAnthropicはTrainium 2を40万~50万規模導入するとされ、MetaやOpenAIもさらに数十万GPU規模に拡張を進めており、今後は50万~70万GPU級のクラスタが出現すると見込まれている
・⭐️イーロン・マスクは将来的に100万GPUクラスタの可能性を示唆しており、許認可上の情報やバッテリーパックの導入計画から見ても拡張の余地は大きい
・⭐️巨大クラスタの用途は従来の「前処理のためのプレトレーニング」だけではなく、自己対話型の環境や検証可能タスクでモデルを継続的に学習させる「ポストトレーニング」が主要な計算消費源になると考えられている
・⭐️ポストトレーニングとしては自己対話やシミュレーション、ロボット操作の仮想環境、検証可能な数学・プログラミングなどで膨大なフロップスを費やすため、プレトレーニングよりはるかに大きな計算リソースを使う可能性がある
・⭐️大規模モデルのコンテキスト長が伸びると推論時や学習時の負荷が増し、フロップスの効率も下がる面があるため、ますますハードウェアとソフトウェア両面での最適化が必要になる
・⭐️これらの要素が相まって、今後もクラスタの規模は加速度的に拡大していき、電力や冷却、ネットワークをめぐる技術革新と競争が続くと見られている
・NvidiaがAI向けハードウェアの中心的存在になっている
・Googleは自社のTPUを保有し、データセンターを複数拠点にわたって大規模に展開している
・Googleの最大クラスターは物理的に分散しているが、光ファイバーで高帯域幅接続されている
・⭐️Elon Muskの単一拠点に全てのGPUを集約する方式とは異なり、Googleは複数サイトを連携させる形で世界最大規模のクラスターを持つ
・⭐️Googleは検索やYouTube、広告など自社の巨大サービス向けにTPUを活用し、ハードウェアを外部販売する文化があまりない
・⭐️TPUの設計やソフトウェアスタックはGoogle内部向けに最適化されており、外部一般ユーザー向けには十分公開・整備されていない
・⭐️Google CloudとTPUのハードウェア開発チーム、DeepMind、検索チームなどは別組織で動いており、統合されていない
・⭐️GoogleがAIハードウェアで積極的に商業化しない背景には、検索収益の規模が巨大で、追加の収益化に優先順位を置いていないことがある
・Googleの内部ではJAXやXLAといった優れたソフトウェアスタックが存在するが、外部には限定的にしか公開されていない
・NvidiaはCUDAやソフトウェアライブラリの整備などが充実しており、ハードとソフトを一体で外部顧客向けに提供する文化をもつ
・⭐️AMDのGPUはハードウェア性能は良い点もあるが、ソフトウェア面が弱く、サポートやバグ対応などで大きな差がある
・Intelはプロセス技術でTSMCに抜かれ、モバイル分野にも乗り遅れ、AI向けの有力シリコンを持てずに苦戦している
・⭐️TSMC、Samsung、Intelの3社のみが最先端の半導体開発のR&Dを担えるが、SamsungとIntelが遅れを取っている
・AWSがクラウド市場で圧倒的な地位を築いた理由には、先行者優位だけでなく中小顧客にも対応してきた点がある
・Microsoft Azureは市場2位で、Google Cloudは3位だが、MicrosoftはOffice 365なども含めた数字で上乗せされているため、実際の差は大きい
・AWSはAmazon全体の利益の大半を生み出しており、物流倉庫などのコマース事業は低利益だが、将来的に価格を上げる余地を残している
・OpenAIやAnthropicなどのAIスタートアップは研究開発と巨大な学習コストに資金を投じており、現時点では大きな利益は出ていない
・OpenAIはGPT-4などのAPI利用料から収益を得つつも、新モデル研究に莫大な資金を投入しており、継続的に資金調達を行っている
・MetaはレコメンデーションなどのAIを使い莫大な収益を得ているが、LLM関連ではまだ大きな直接収益には結びついていない
・Googleも検索など従来型AIで収益を得ているが、Geminiなど大規模言語モデルが直接大きな収益を生み出すかは未知数
・MicrosoftはAIの研究・提供に莫大な資金を投じているが、減価償却などの会計上は黒字でも、実質的には高いコストを背負っている
・⭐️長期的には「知能を安価に提供する」ことで大きな経済的価値が生まれる可能性があるため、投資が続くと見込まれている
・Elon MuskはXAIなどでAIモデルを作り、Teslaのロボット「Optimus」を含め、家庭向けロボット市場にも大きな可能性を見ている
・⭐️ロボットが人間の労働力を代替するならば、数兆ドル規模の市場が生まれるという試算もある
・AIレースではモデルやインフラなど複数のレイヤーで競争が進行しており、勝者が1社に限定されることはないという見方が強い
・最終的にAGIがどう実現されるかは不明で、複数企業が同時に異なる形で高性能AIを進める状況が続く可能性がある
・⭐️OpenAIやAnthropicのような専業AI企業が、GoogleやMeta、X(旧Twitter)といった大手プラットフォーム企業に比べて不利な立場にある可能性がある
・大手プラットフォーム企業は既存の多角的なサービスや膨大なユーザーデータ、広告収益などを持っているため、AI開発においてもコストや実装面で有利になりうる
・⭐️一方でOpenAIやAnthropicは最先端モデルの開発を続けているが、もしモデルがコモディティ化し、たとえばLlamaなどのオープンソース系モデルが安価で使えるようになれば、専業AI企業は存在感を失う可能性がある(ダリオが別のところで、大量のチップを確保できるのは数社だけになりそれがmoatになると反論してた気がする)
・⭐️ChatGPTのようなチャットアプリ単体の収益性や利用場面には限界があり、今後は広告モデルの導入や、エージェント的な高度タスク処理への展開が重要になるかもしれない
・広告モデルに関しては、AIの出力内にどう広告を組み込むかが明確になっておらず、Googleの検索連動型広告のように大きな収益源となるかは不透明だ
・⭐️一方でLLMがさらに安価に提供できるようになると、広告を載せても無料でサービス提供ができ、Googleなどの大手が優位に立つ可能性が高い
・⭐️OpenAIやAnthropicが生き残るには、汎用的なタスク処理や自律的エージェント開発など、より高度な領域で差別化する必要がある
・⭐️エージェント(AIが自律的にタスクをこなす存在)は過剰に期待されている面もあるが、一方で多ステップのタスクを確実に実行するための「高い精度の積み重ね」がまだ難しい
・自動運転などの事例になぞらえ、少しのエラー率でも多ステップを積むとエラーが累積するため、実用化には高いハードルがある
・⭐️特にウェブやOSのように制約が少なく複雑な環境では、エージェントに任せるハードルが自動運転以上に高い
・ただし特定分野を限定すれば(たとえば旅行サイトとAPI連携するなど)エージェントが有用に働く場面は出てくる可能性がある
・企業がウェブサイトをAI対応しやすい構造に変えたり、特定のAPI連携を整備したりすることでエージェントの活用が広がる可能性もある(Agent First)
・ソフトウェアエンジニアリングの分野では、既にコード自動生成による生産性向上が目覚ましく、多くの開発者が有料プランを含むLLMを活用している
・⭐️特にコードはコンパイルやテストによる検証が可能な「検証可能領域」であるため、他の分野よりもエージェント技術の発展が速い
・⭐️ソフトウェア開発のコストが大幅に下がれば、プラットフォームSaaSに頼らずに自社独自のシステムを構築する動きが増える可能性がある
・⭐️一方でこれにより、ソフトウェアエンジニアの需要が急激に消滅するわけではなく、今後は伸びが鈍化する可能性がある
・⭐️ロボットの家庭導入など物理的世界とのインタラクションはエラーケースが非常に多いため、ソフトウェア領域ほど急速には進展しにくいという考えが示された
・⭐️エージェント化したLLMが複数のウェブサイトやアプリを横断してタスクをこなすには、まずは大手企業とのAPI連携や専用UI整備などのインフラ構築が必要だ
・各企業はAIが使いやすいように自社サイトを整備して市場を取り込みたい動きが出る一方で、AI利用による追加手数料や価格上乗せなど、新たなビジネスモデルも生まれる可能性がある
・⭐️ユーザー側はエージェントの失敗時に人間のオペレーターが介入するような「テレオペレーション」サービスの需要が生まれる
・⭐️AI同士が連携して問題解決を行い、さらに行き詰まった際には人間が補佐する、という多段階構造のビジネスも今後出てくるだろう
・すでに一部の研究機関や企業では、GoogleやAmazonの偽サイトなどを作り、エージェントを訓練するためのサンドボックス環境を用意しているという話がある
・このように、分野ごとや環境ごとに段階的にAIが適用され、実績を積みながらゆっくりと汎用化していく流れがある
・⭐️ただし、いわゆる「次の段階」に進むにはまだ多くの技術的課題やインフラの整備が必要であり、当面は「チャット」「推論・推敲」「限られたエージェント的タスク」の段階に留まるだろう
・⭐️プログラミング支援分野ではすでに大きな生産性向上が見られ、特にベンチマークのスコア向上が急速であることから、今後さらにソフトウェア開発の形態が変わりうる
・⭐️ただし多ステップでの完全自動化はまだ困難で、人間のレビューや高次の意思決定は依然として重要である
・人間は他の人間の好みや判断を理解する能力に優れ、それがAIの好み(プリファレンス)の源泉となる
・AI開発では「どちらの回答が良いか」を人間が判定する形で学習(RLHFなど)する手法が主流になりつつあり、ソフトウェアエンジニアリングでもPRレビューのように最終判断を人間が行う形が想定される
・⭐️プログラマーはAIを使いこなし、監督・パートナーとしての立場を担う必要がある(プログラマは意識的にポジションを変えていく必要がありそう。o1、o3のプログラミングのベンチマークの異常な伸びを見る限り、純粋にコードを書くという面においてはAIに今年~来年くらいには勝てなくと予想される。今まで会社の手足だったプログラマは、自分が脳になりAIエージェントを手足とする必要がある。)
・⭐️高度なシステムを管理するにはプログラミングの専門知識が不可欠であり、一方でドメイン専門知識(航空宇宙、半導体、化学工学など)を持つ人材がAIを活用すれば大きな可能性がある
・各分野では旧来のプラットフォームやソフトウェアが使われている場合が多く、AIを活用して近代化や自動化する余地が大きい
・法的分野や行政分野でもソフトウェアによる効率化が期待されるが、既得権益や官僚主義が障害となる場合がある
・MetaのLlamaライセンスには特定の利用制限や名称使用の義務があり、オープンソースソフトウェアの定義から外れる部分がある
・DeepSeek R1は商用利用や二次利用に制約がない真にオープンなモデルを提示しており、こうした動きがオープンソースAIを進める契機になっている
・Stargateはテキサス州アビリーンに建設予定の大規模データセンター計画で、サム・アルトマンやラリー・エリソン、トランプ前大統領などが関わっている
・トランプ政権下(新政権という想定の設定)で連邦土地での建設許認可手続きが簡素化されたことや、テキサス州の送電網が独立している点などが建設加速の背景となっている
・Stargateでは総額1000億ドルから5000億ドル規模とも言われる計画が報道されているが、まだ資金面で不確定要素が大きい
・⭐️第1フェーズは2.2GW規模のデータセンターで、GPUなどのサーバー費用が約500億ドル、総所有コスト(TCO)としては1000億ドルとも見積もられる
・資金調達にはオラクルやソフトバンク、UAEの投資ファンドMGXなどが候補とされるが、すべて確定しているわけではない
・⭐️OpenAIは自社の出資分として190億ドルが必要とされるが、まだ手元資金が足りず、追加の大型投資を募っている段階
・⭐️トランプの関与は直接的な予算拠出ではなく、規制緩和や巨大インフラ建設を後押しする雰囲気づくりの面が大きい
・⭐️大規模クラスター建設には高いリスクや巨大資金が必要だが、今後のさらなるAIモデル性能向上や競争激化に備え、各社や投資家が注目している
・将来的にはネットワーク、特に光学技術やマルチデータセンター間での分散学習が重要になり、通信・光学部門での技術革新が期待されている
・⭐️巨大言語モデルの評価や発展には、サプライチェーン(GPU製造、電力、ネットワーク整備など)全体を見通す必要があり、そこにこそ大きな成長機会があると考えられている
・メモリやインターコネクト、データセンター間のファイバーなどの速度差について尋ね、それらが将来的に一体化して単一のコンピュータのように扱える可能性はあるのか?
・それは不可能であり、プログラミングはより複雑になり、メモリ階層やアクセスレイテンシの違いがなくなることはない
・メモリ階層として、チップ内のレジスタやキャッシュ、HBMやDDRなどのメインメモリ、多数のチップ間で共有するプール、データセンター内外のストレージやネットワークといった段階があり、アクセスコストが異なるため単一のプログラミングモデルで簡単には扱えない
・並列化によって性能を上げようとしても、リソースを倍にしたからといって必ずしも性能が倍になるわけではなく、効率上の課題が存在する
・DeepseekやGoogleなど、多くの企業や研究者がネットワークやプログラミングモデル、アルゴリズムなどを工夫してスケーリングを最適化しようと取り組んでいる
・ハードウェアのリソグラフィやエッチング、ファブリケーションからネットワーキング、冷却技術、電力やトランスフォーマー、ケーブルの高密度化といったレイヤーまで、人類はあらゆる階層で活発にイノベーションを進めている
・Dylanは半導体やAIモデル開発など、技術の最先端を分析・モニターする活動を行い、それが人類文明のデジタル面を俯瞰できる立場につながっていると語る
・モデルをトレーニングすることは非常に面白く、まだ多くの未開拓分野があると指摘しつつ、AI開発のオープン化が重要である
・より多くの人がAIに関わり理解を深めることで、技術の透明性や安全性が高まり、人類全体にとってより良い方向に進む可能性がある
・チェーン・オブ・ソートのような技術でモデルの思考過程を見ると、人間の知能や意識について改めて考えさせられる瞬間がある
・⭐️物理世界とのインタラクション、特にロボティクス分野では、センサーや低レベル制御といった課題がまだあり、現状の大規模言語モデルを使うだけで容易に解決できるわけではない
・⭐️人類が千年先まで存続する可能性を楽観視しており、大きなリスクが出てきた場合には人類はそれに対応してきた歴史がある
・⭐️人類全体への脅威よりも、AIやブレイン・コンピュータ・インターフェースを利用する少数の権力者が大きな力を得る「テクノファシズム」的な状況を懸念している
・⭐️一方で、AIが効率化を促進して経済的豊かさをもたらし、人類全体の苦しみを減らす可能性も高いという楽観的見方もある
・最終的には、こうした複雑な側面を伴いながらも、AIやモデルのオープン化、ハードウェアとソフトウェア双方での進化が今後も続くと予想される
(2/2) ... 書き起こし→o1-pro翻訳 ...
Missing some Tweet in this thread? You can try to
Update