ディープシークが目を開く

2026年5月9日、DeepSeekは中国のAI検索の景色を変えるものを静かにリリースした。

It launched image recognition mode — the ability to actually "see" and understand images, not just extract text from them. Almost every test account now has access to this feature.

This matters because DeepSeek isn't just another AI chatbot. It's one of China's fastest-growing AI search platforms, and it's now a visual search engine too.

For brands investing in GEO (Generative Engine Optimization), this raises a critical question: are your images optimized for AI search?

なぜこれがGEOを変えるのか

今までは、GEOはテキストの話だった。ユーザーが関連トピックを検索したときにAIモデルがブランドを推奨するようにコンテンツを最適化するのだ。

しかしDeepSeekの新機能は、AI検索がもはやテキストだけのものではないことを意味する。ユーザーは画像をアップロードしてDeepSeekに分析を依頼できるようになったのだ。

~90
Tokens per 800×800 image (DeepSeek)
870-1100
Tokens per same image (GPT/Claude)
10x
More efficient than GPT/Claude on vision tasks

あなたのウェブサイト、商品ページ、マーケティング資料にある画像が、今やGEO戦略の一部となる。DeepSeekは商品写真、インフォグラフィック、ブランドビジュアル、スクリーンショットを分析し、その理解を用いて推奨内容に影響を与えることができる。

🔍
DeepSeek Vision
~90 tokens per 800x800 image. "Thinking with Visual Primitives" framework for precise spatial reasoning. Drastically lower cost per analysis.
🤖
GPT-4o Vision
~870 tokens per same image. Reliable general-purpose visual understanding but significantly more expensive per query.
🟣
Claude Vision
~1,100 tokens per same image. Strong at detailed analysis but struggles with spatial reasoning in dense scenes.
🏆
Winner: DeepSeek
10x more efficient, purpose-built for Chinese AI search ecosystem. Best cost-performance ratio for brands targeting China.

DeepSeek's visual reasoning costs dramatically less than competitors, which means it can afford to "look" at more images in more queries — increasing the importance of visual content in AI search rankings.

💡 What This Means

DeepSeekのアプローチは他のマルチモーダルモデルとは明らかに異なる。チームは「ビジュアル・プリミティブによる思考」(Thinking with Visual Primitives)と呼ばれるフレームワークを開発した。

従来のマルチモーダルモデルは「指示的ギャップ」に苦労する——推論チェーンで「左にある大きい方」のような曖昧な言葉を使うのだ。DeepSeekは視覚要素を「思考の基本単位」として推論チェーンに直接組み込む。

DeepSeek's approach is notably different from other multimodal models. According to its technical report, the team developed a framework called "Thinking with Visual Primitives".

800x800画像あたり約90トークン(GPT/Claudeの870~1100に対して)——ビジョンタスクで約10倍の効率性

DeepSeek's solution is elegant: it incorporates visual elements directly into its reasoning chain. Points, bounding boxes, and spatial coordinates become the "basic units of thought" — like a cybernetic finger pointing at exactly what it's analyzing.

🔬 How It Works
  1. 今までは、GEOはテキストの話だった。ユーザーが関連トピックを検索したときにAIモデルがブランドを推奨するようにコンテンツを最適化するのだ。
  2. しかしDeepSeekの新機能は、AI検索がもはやテキストだけのものではないことを意味する。ユーザーは画像をアップロードしてDeepSeekに分析を依頼できるようになったのだ。
  3. あなたのウェブサイト、商品ページ、マーケティング資料にある画像が、今やGEO戦略の一部となる。DeepSeekは商品写真、インフォグラフィック、ブランドビジュアル、スクリーンショットを分析し、その理解を用いて推奨内容に影響を与えることができる。
  4. 技術の裏側:「ビジュアル・プリミティブによる思考」

1. 画像対応GEO

  • Accuracy: Visual primitives eliminate the "referential gap" — no more "that thing over there" errors
  • Efficiency: 90 tokens vs 870-1100 for GPT/Claude makes it vastly cheaper to deploy
  • Scalability: Because it's cheaper, DeepSeek can afford to analyze more images in more queries

AI検索に最適化する際、画像がどのように解釈されるかを考慮する必要がある。主要な画像すべてに説明的なキャプションを付け、適切なaltテキストを使用すること。

2. ビジュアル検索クエリの到来

DeepSeekの画像認識は新しいタイプの検索を可能にする:ビジュアルクエリ。ユーザーは商品の写真を撮ってDeepSeekに質問できる。

Action: Add descriptive captions to all key images. Use proper alt text. Structure your visual content so AI can easily parse what it represents.

  • 📸
    Optimize product images Ensure product photos are clear, well-lit, and include descriptive filenames and alt text. DeepSeek will analyze these for visual search queries.
  • 📊
    Structure infographics for AI Use clear labels, logical flow, and text overlays in visual content. DeepSeek's visual primitives parse structured visuals more accurately.
  • 🖼️
    Pair text with supporting visuals Every major content section should have a companion visual. DeepSeek cross-references text and images to build stronger trust signals.

DeepSeekはテキストコンテンツとビジュアルコンテンツを相互参照できる。関連性のある、よく構造化された画像を含むブログ記事は、より高い重み付けを受ける。

DeepSeek's image recognition enables a new type of search: visual queries. Users can take a photo of a product and ask DeepSeek about it. Brands that have optimized their visual presence will be recommended.

Action: Ensure your product images are clear, well-lit, and accurately labeled. Consider how DeepSeek's visual primitives will interpret your brand's visual assets.

DeepSeekが「見る」ことを学んだのは、AI検索がテキストを超えて拡大しているシグナルだ。中国でGEOを行っているブランドにとって、ビジュアルコンテンツ戦略はもはやオプションではない。

ブログURL: https://www.tuyuesouxin.cn/blog/deepseek-image-recognition-geo/

Action: Pair every major piece of text content with supporting visuals. Charts, diagrams, and product photos that reinforce your message create stronger AI trust signals.

⚠️ Current Limitations

DeepSeekのアプローチは他のマルチモーダルモデルとは明らかに異なる。チームは「ビジュアル・プリミティブによる思考」(Thinking with Visual Primitives)と呼ばれるフレームワークを開発した。

  • Knowledge lag: It may misidentify very recent products (knowledge cut-off around early 2025)
  • Complex visuals: Optical illusions and counting tasks still cause errors
  • No generation: It can analyze images but not generate or edit them (yet)

従来のマルチモーダルモデルは「指示的ギャップ」に苦労する——推論チェーンで「左にある大きい方」のような曖昧な言葉を使うのだ。DeepSeekは視覚要素を「思考の基本単位」として推論チェーンに直接組み込む。

主要データ

800x800画像あたり約90トークン(GPT/Claudeの870~1100に対して)——ビジョンタスクで約10倍の効率性

コンテンツ戦略にとっての意味

1. 画像対応GEO

AI検索に最適化する際、画像がどのように解釈されるかを考慮する必要がある。主要な画像すべてに説明的なキャプションを付け、適切なaltテキストを使用すること。

2. ビジュアル検索クエリの到来