
ミラ・ムラティ氏初の製品Tinker、エンジニアが価値提案に疑問を呈し、前途多難に直面
ミラ・ムラティ氏初のスタートアップ製品、厳しい評価に直面
エンジニアたちはファインチューニングAPIの有効性に疑問、オープンソースの競合が優勢を維持
サンフランシスコ — 昨年秋、数ヶ月にわたる確執が報じられる中、ミラ・ムラティ氏がOpenAIを去った時、AI業界は固唾を飲んだ。同社の最も影響力のある人物の一人と長く見なされてきた元最高技術責任者(CTO)は、新たなプロジェクトに取り組んでいたのだ。今週、彼女が立ち上げたスタートアップであるThinking Machinesが、ついにそのベールを剥がした。デビュー製品は、大規模なオープンウェイト言語モデルのファインチューニングをはるかに容易にするというマネージドAPI「Tinker」だった。
しかし、喝采の代わりに、そのローンチは懐疑的な見方で迎えられた。
「Unslothの方がずっと優れている」とCTOL.digitalのあるエンジニアが社内Slackチャンネルでコメントしたが、これは業界の初期反応の多くを物語っている。私たちのチームの分析では、Tinkerが本当に何か新しいものを提供しているのかについて、深刻な疑問が投げかけられている。
ムラティ氏にとって、これほど大きな賭けはない。次の大規模なGPT型モデルを追い求めるのではなく、ファインチューニングサービスを展開することで、彼女はAIの未来がカスタマイズにあると賭けている。これは、彼女の元雇用主のクローズドボックスな哲学への直接的な批判であり、Thinking Machinesの高い評価額を正当化するか、あるいはそれが過大評価であったことを露呈させる可能性のあるギャンブルだ。
約束:最も困難な部分の簡素化
理論上、Tinkerはシンプルな提案をしている。スケジューリング、リソース割り当て、障害からの復旧といった厄介なインフラ周りの課題をTinkerが引き受け、研究者にはデータとアルゴリズムの制御を任せるというものだ。チームは、より小規模なビルドからQwen-235B-A22Bのような大規模なモデルまで、たった一行のコードでモデル間を移行できる。
このシステムはThinking Machines社内のクラスターで動作し、LoRA(低ランク適応)を使用して複数のトレーニングジョブにコンピューティングリソースを分散させ、コスト削減の可能性を秘めている。開発者がすぐに使えるよう、同社は最新のトレーニング後手法をまとめたオープンソースライブラリ「Tinker Cookbook」も公開した。
いくつかの有力な研究グループは、すでにこのシステムを試している。プリンストン大学、スタンフォード大学、カリフォルニア大学バークレー校のチームは、数学の定理証明から化学的推論に至るまで、様々なプロジェクトでTinkerをテストした。Redwood Researchに至っては、扱いの難しいAI制御の問題に対してQwen3-32Bのトレーニングにこれを使用した。
問題:他との違いを納得させることの難しさ
ここに問題がある。上記のどれも、エンジニアたちが問い続ける疑問に答えていないのだ。彼らがすでに信頼しているオープンソースツールから、なぜ切り替える必要があるのか?
私たちのCTOL.digitalエンジニアリングチームのレビューでは、2つの弱点が浮き彫りになった。1つ目は、単純な疑念だ。TinkerをUnslothやTRLといった実績のあるシステムと比較する公開ベンチマークがなければ、開発者はそれがより速いのか、より安価なのか、より安定しているのかを判断するための具体的な数値を持たない。「明確で、実績のある利点」こそが彼らが求めているものだ。しかし今のところ、それらは示されていない。
2つ目は、より手厳しい意見だ。一部のエンジニアはTinkerを「投資家向けの見せ物」だと一蹴している。つまり、実際のユーザーに役立つのではなく、投資家を感心させるために作られたツールだというのだ。一度そのような認識が定着してしまうと、使いやすさについて口頭で説明しても、それを払拭することはできないだろう。
「コストとパフォーマンスにおいて既存のシステムを上回る、透明性があり再現可能な結果を私たちは求めている」と、私たちのエンジニアの一人はきっぱりと言う。それらが示されるまでは、疑念が勝るだろう。
欠けているもの:信頼に足る証拠
Tinkerのデビューにおける最大の欠点は一目瞭然だ。独立したベンチマークが存在しないのだ。トークンあたりのコスト、スループット、トレーニングの安定性、収束までの時間といった、実際に重要な指標に関して、競合製品と比較したトレーニング実行結果は一つも公開されていない。
その沈黙は、エンジニアに評価ではなく推測を強いている。Tinkerのマネージドインフラが本当に負担を軽減するのか、あるいはそのLoRAの工夫がレンタルGPUでUnslothを実行する場合と比較して本当にコストを節約できるのか、彼らには判断できないのだ。
同様に、語られていないことも注目に値する。詳細なバグレポートや障害分析の欠如は、ほとんどの開発者がまだ真剣にテストに時間を費やしていないことを示唆している。ベータアクセスがより広く開放され、ユーザーがログ、設定ファイル、再現可能なエラーを共有し始めれば、フィードバックは厳しい批判となるか、あるいは受け入れへと軟化するかのどちらかになるだろう。
全体像:AGIへの急進に対する賭け
Tinkerのローンチは、ムラティ氏の展望についてより深い洞察も与えている。フロンティアモデル開発よりもファインチューニングインフラを選択することで、彼女は汎用人工知能(AGI)への画期的な飛躍がすぐには起こらないと示唆しているのだ。
この見解は、彼女を他のOpenAIの元メンバー、例えば共同創設者のジョン・シュルマン氏や研究者のバレット・ゾフ氏、ルーク・メッツ氏らと同じ立場に置くものであり、彼らは皆、オープンウェイトモデルへと軸足を移している。彼らの動きは、オープンモデルを個別最適化する方が、次の巨大なクローズドシステムへと競い合うよりも、現時点ではより実用的な価値を提供するという共通の信念を示唆している。
この議論は、AI業界の核心を突くものだ。進歩は、より大きく厳重に保護されたモデルを構築することから生まれるのか、それとも既存のモデルをより賢く適応させる方法を発明することから生まれるのか?
今後の展望:証明するか、忘れ去られるか
Thinking Machinesは徐々にユーザーをウェイティングリストから解放している。ベータ期間中はサービスは無料だが、まもなく従量課金モデルに移行する予定だ。エンジニア間の冷ややかな反応について尋ねられた際、同社はコメントを拒否した。また、競合システムに対するベンチマークデータも共有しなかった。
その沈黙は、ただ一つの道筋しか残さない。信頼を勝ち取るためには、ムラティ氏のチームは、再現可能なベンチマーク、現実世界でのコスト削減、安定性の向上、そして実際のトレーニングカーブで文書化された生産性向上といった、確固たる証拠を公開する必要がある。それらがなければ、Tinkerは華々しいデビューを飾ったものの、定着できなかった製品として記憶されるリスクがある。
CTOL.digitalの一部のエンジニアは、こう手厳しく述べている。「ベータが拡大し、ユーザーが設定ファイル、ログ、障害結果を公開すれば、より実質的な批判が予想されるだろう。だが、待てよ、投資家たちは今、悲鳴を上げているのではないか?」
ムラティ氏のOpenAI時代からの評判は、いまだに彼女に注目を集めている。だが、その注目を維持できるかどうかは、次に来るもの、つまり約束ではなく、確固たる証拠にかかっている。