Deepseekが10倍のテキスト圧縮を達成:文書を単語ではなく「画像」として認識させる新技術

著者
CTOL Editors - Ken
13 分読み

ビジョン革命:AIはいかにテキストを「読む」のではなく「見る」ことを学んだか

中国のディープシーク、画期的な圧縮技術でAIの長年の常識を覆し、機械の情報処理方法を刷新する可能性

シリコンバレー — 人工知能に関する根本的な前提を覆す進展として、ディープシークの研究者たちは、コンピューターが長文の文書を単語ごとに処理するのではなく、人間のように「画像」として視覚的に捉えることで、より効率的に処理できる可能性を示しました。

本日公開された論文で詳細が発表されたこの画期的な成果は、コンピューター科学者たちが長年追い求めてきた、意味を損なうことなく長大なテキスト処理に伴う膨大な計算コストを劇的に圧縮する方法を実現する「DeepSeek-OCR」と名付けられたシステムを紹介しています。

この革新の中心にあるのは、直感に反する発想です。文書が長くなるにつれて計算コストが指数関数的に増大する標準的なアプローチである、AIシステムに何千もの個別の単語トークンを送り込む代わりに、研究者たちはテキストを画像としてレンダリングします。そして、専門のビジョンエンコーダがその画像を元のデータのわずかな量に圧縮し、言語モデルがそれを「解凍」して完全なテキストに戻すという仕組みです。

独立系AI研究グループであるCTOL.digitalのエンジニアリングチームの分析は、「これは単にOCRの改善にとどまらない」と強調しています。「高価なテキストトークンを密度の高い2Dビジョントークンに置き換えることで、LLMのコンテキストボトルネックを打破することなのです。」

重要な数字

その意義は、指標を見ると明らかです。DeepSeek-OCRは、テキストを10対1の比率で圧縮しながら、約97%の精度を達成しています。通常1,000個のテキストトークンを必要とする情報を、わずか100個のビジョントークンで表現できるのです。さらに積極的に20対1で圧縮した場合でも、システムは60%の精度を維持します。

複雑な文書レイアウト、数式、表を用いてAIシステムをテストするOmniDocBenchベンチマークでは、DeepSeek-OCRは、既存のシステムを凌駕しつつ、計算リソースを桁違いに少なく使用しました。MinerU 2.0のような競合システムが1ページあたり平均6,000トークンを必要としたのに対し、DeepSeek-OCRは800未満のトークンで同等かそれ以上の結果を達成しました。

実用面での影響は驚くべきものです。研究者たちは、単一のハイエンドGPUで1日あたり20万ページ以上の文書処理能力を報告しており、これは中規模のクラスター全体で1日あたり3,300万ページにまで拡張できるスループットです。

新しいメモリアーキテクチャ

おそらく、この研究の最も示唆に富む側面は、OCRの性能そのものよりも、AIシステムの未来について示唆することです。CTOL.digitalチームは、「視覚的記憶」パラダイムと呼ぶものを特定しました。これは、AIシステムが人間のような段階的な記憶を維持する可能性であり、新しい情報は高解像度で保存され、古いコンテキストは徐々に低解像度の圧縮画像へと「薄れていく」というものです。

「モデルがテキストを直接『見る』ことができれば、ビジョン入力はテキストトークンよりも安価になり、より人間らしいものになるかもしれない」と、この進展を追跡しているコミュニティの研究者たちは指摘しました。「新しいコンテキストは高精度のタイルに、古いコンテキストは小さなモードになり、自然な忘却が生じるのです。」

このアプローチは、AIシステムが長文のコンテキスト理解という根深い課題に対処する方法を根本的に変える可能性があります。現在の言語モデルは、計算コストが長さに応じて2乗で増加するため、長文の文書、会話、またはコードベースの処理に苦労しています。DeepSeek-OCRは、古いコンテキストを圧縮画像としてレンダリングし、新しい情報を完全な忠実度で維持しつつ、遠いコンテキストを自然に「忘却」させるという代替案を提示しています。

画期的なアーキテクチャの背景

このシステムの効率性は、約3億8,000万のパラメータを持つ綿密に設計された3段階のエンコーダ・アーキテクチャと、推論ステップごとにわずか5億7,000万のパラメータしかアクティブにしない30億パラメータのMixture-of-Experts(MoE)デコーダの組み合わせに起因しています。

エンコーダの最初の段階では、ウィンドウ型アテンションを使用して高解像度画像をローカルで処理し、メモリを圧倒しないようにします。次に、畳み込みネットワークが16分の1に積極的なダウンサンプリング(これが重要な圧縮ステップです)を実行し、その後に最終的なグローバルアテンション段階で、管理可能なトークン数になった全体的なコンテキストを捕捉します。

CTOL.digitalの分析は、この設計の洗練された点を強調しています。「1024×1024の画像は4096個のパッチトークンを生成し、グローバルアテンションの前に256トークンにダウンサンプリングされることで、アクティベーションを管理可能な状態に保ちます。」

このシステムのトレーニングには、基本的なOCR機能のために約4,300万の画像とテキストのペアを処理し、さらにチャート解析や化学構造認識のような高度なタスクのために1,600万の専門的なペアが必要でした。チームは、それぞれ8基のハイエンドGPUを搭載した20のノードでトレーニングを実施し、最先端のAI研究をますます特徴づけるような大規模なスケールを実現しました。

テキスト認識を超えて

このシステムは、単なるテキストの書き起こしをはるかに超える機能を示しています。チャートを構造化データに解析し、化学図を標準表記に変換し、幾何学的図形を解釈し、約100の言語に対応できます。デモンストレーションでは、プレーンテキストだけでなく、HTMLテーブル、Markdown、座標ベースのレイアウトを含む構造化された形式で出力する能力も示されました。

しかし、CTOL.digitalチームは重要な留意点も指摘しています。「97%の精度では、厳密なOCRのユースケースには不十分です。アイデアは素晴らしいものの、高リスクのパイプラインでは精度が不足する可能性があります。」医療記録や金融契約など、完璧な精度が不可欠なアプリケーションにおいては、人間による監視が引き続き不可欠でしょう。

革新のパターン

この開発は、主流のアプローチに挑戦する基盤研究を公開することで評価を得てきたDeepSeek-AIの幅広いパターンに合致しています。「ディープシークは、他者が試みるのに何年もかかるような基盤モデルのアイデアを次々と発表している」と、AI研究コミュニティのメンバーは指摘しました。「これは、製品の微調整というよりも、汎用人工知能(AGI)指向の研究だと感じられます。」

この研究はまた、AIシステムにおける視覚と言語の将来の関係について、興味深い疑問を提起しています。もしビジョントークンがテキストトークンの約10倍のセマンティック(意味)内容を伝えられるとすれば(これは圧縮率から導かれる経験則です)、将来のAIシステムは視覚処理を優先してテキストトークン化を完全に放棄する可能性があるのでしょうか?

「これがスケールすれば、次世代の長文コンテキストLLMは、生トークン文字列ではなく、思考のスクリーンショットを記憶するようになるかもしれない」と研究者たちは推測しました。

今後の課題

重要な疑問は残っています。このアプローチは、慎重にフォーマットされた文書を超えて、自由形式のテキストにどのように一般化されるのでしょうか?多様なレイアウトに対して最適なタイリングと解像度の方針は何でしょうか?そして、圧縮の利点を維持しながら、精度閾値をさらに高めることはできるのでしょうか?

CTOL.digitalチームは、中心的な課題をこう定めています。「自由形式のテキストは、最大限に圧縮可能なレンダリングにどのように正確にマッピングされるのか?」

しかし、これらの未解決の疑問があるにもかかわらず、DeepSeek-OCRは光学文字認識における漸進的な進歩以上のものを意味します。それは、AIシステムが最も根深い課題の一つである、長大で複雑な情報を効率的に処理するための、根本的に異なる方法を提案するものです。

AIシステムがコンテキストを維持し、ニュアンスを理解し、大規模に効率的に動作する能力によってますます評価される時代において、「コンテキスト光学圧縮」という技術は、単なる巧妙なエンジニアリングのトリック以上のものと証明されるかもしれません。それは、人工知能が私たち人間のように記憶し、そして忘れる方法の一端を示しているのかもしれません。

コードとモデルの重みは一般公開されており、これにより広範な研究コミュニティがこれらの知見を基に開発し、検証し、拡張することが可能になります。これが一時的な探求なのか、それともAIアーキテクチャにおける永続的な変化を意味するのかはまだ分かりません。しかし、今のところ、まさにビジョン革命が始まっています。


技術論文および実装の詳細は、DeepSeek-AIの公開リポジトリから入手可能です。CTOL.digitalエンジニアリングチームの分析は独自に行われました。

あなたも好きかもしれません

この記事は、 ニュース投稿のルールおよびガイドラインに基づき、ユーザーによって投稿されました。カバー写真は説明目的でコンピューターにより生成されたアートであり、事実を示すものではありません。この記事が著作権を侵害していると思われる場合は、 どうぞご遠慮なく弊社まで電子メールでご報告ください。皆様のご協力とご理解に感謝申し上げます。これにより、法令を遵守し、尊重あるコミュニティを維持することが可能となります。

ニュースレターに登録する

最新のエンタープライズビジネスとテクノロジー情報をお届けします。さらに、新しいサービスや提供物をいち早く独占的にチェックできます。

当社のウェブサイトでは、特定の機能を有効にし、より関連性の高い情報を提供し、お客様のウェブサイト上の体験を最適化するために、Cookieを使用しています。詳細については、 プライバシーポリシー および 利用規約 で確認できます。必須情報は 法的通知