Tongyi DeepResearch：Alibaba発のオープンソース研究エージェントが研究AI市場に挑む｜使い方と技術解説

近年、GoogleやOpenAIといった大手テック企業が相次いで研究エージェント機能をリリースし、AI支援による情報収集と分析の可能性が注目を集めています。そんな中、Alibabaの通義（Tongyi）研究所が発表したTongyi DeepResearchは、その常識を大きく覆す存在です。

完全オープンソースでありながら、有料のプロプライエタリ（独占的）システムと競合できる性能を実現しています。

これは単なる「検索ができるチャットボット」ではありません。複数の情報源を横断的に調査し、計画を立て、論理的に推論し、まるで新人アナリストや若手弁護士のように情報を統合できる本格的なWebエージェントなのです。

0.1 🎯 ベンチマークで実証された実力

1 こんな方におすすめです
2 なぜTongyi DeepResearchが画期的なのか？
- 2.1 1. 大規模データ合成技術
- 2.2 2. フルパイプライン訓練
3 Tongyi DeepResearchの訓練レシピ｜技術の核心
4 2つの実行モード｜用途に応じた使い分け
- 4.1 モード1：ReActモード（標準モード）
- 4.2 モード2：ヘビーモード（IterResearch）
5 実際の活用事例｜もう実用段階に到達
- 5.1 事例1：高德地図（Gaode/Amap）のAIアシスタント『Xiao Gao（小高）』
- 5.2 事例2：通義法睿（Tongyi FaRui / 法務研究エージェント）
6 なぜこのアプローチが成功したのか？
7 現時点での課題と限界
8 まとめ｜AI研究の未来は「オープン」にある

🎯 ベンチマークで実証された実力

主要な評価指標において、Tongyi DeepResearchは以下のスコアを記録しています：

Humanity’s Last Exam: 32.9
BrowseComp: 43.4
xbench-DeepSearch: 75

これらの数値が意味するのは、クローズドソースの最高峰モデルと競合する性能を、誰でもダウンロードして検証・実行できる形で提供しているということです。

こんな方におすすめです

✅ 研究者・データアナリスト：複数の論文や資料を横断的に調査したい方
✅ 法務・コンサルタント：大量の文書から関連情報を抽出・整理したい方
✅ エンジニア・開発者：オープンソースのAIエージェントの仕組みを学びたい方
✅ AI愛好家：最新の研究エージェント技術に触れてみたい方

なぜTongyi DeepResearchが画期的なのか？

従来のAI「リサーチ」の多くは、表面的な検索結果の羅列か、プロンプトの工夫による見せかけに過ぎませんでした。しかし、Tongyi DeepResearchは根本的に異なります。その理由は2つあります。

1. 大規模データ合成技術

単なるWebスクレイピングや手作業でのアノテーション（データラベリング）に頼るのではなく、大規模な合成データセットを生成してエージェントを訓練しています。これにより、実際の研究プロセスに近い思考パターンを学習できます。

「合成データセット」って何ですか？普通のデータと何が違うんでしょうか？

合成データセットとは、人間が手作業でラベル付けしたデータではなく、AIが自動的に生成した学習用データのことです。Tongyi DeepResearchの場合、実際の研究プロセス（質問→調査→推論→結論）のパターンを大量に自動生成しています。料理に例えると、一人ひとり手作りで教えるのではなく、「こういう時はこう調理する」という何万ものパターンをシステムが自動で作り出して学習させるイメージです。これにより、数千人のアノテーター（データラベリング作業者）を雇うコストをかけずに、大規模な訓練が可能になっています。

2. フルパイプライン訓練

次の3段階を経て、エージェント専用に最適化された訓練を行っています：

継続的事前学習（Continual Pre-training）
教師あり微調整（Supervised Fine-Tuning）
強化学習（Reinforcement Learning）

この結果、モデルは単に「次の単語を予測する」のではなく、複数ステップにわたって推論し、計画を立て、ツールを使いこなす能力を獲得しています。

Tongyi DeepResearchの訓練レシピ｜技術の核心

ここからは、Tongyi DeepResearchがどのように作られたのか、その技術的な仕組みを段階ごとに解説します。

モデルアーキテクチャ

Tongyi DeepResearchは30.5B（305億）の総パラメータを持ち、トークンごとに3.3B（33億）のパラメータがアクティブ化されるMixture-of-Experts（MoE）アーキテクチャを採用しています。これにより、小規模モデルの効率性と大規模モデルの能力を両立させています。

ステップ1：継続的事前学習（CPT）

通常のLLM（大規模言語モデル）が単にインターネット上のテキストを読み込むのに対し、Tongyi DeepResearchは「研究プロセス」そのものを学習します。

具体的には、「AgentFounder」と呼ばれるシステムを使って、生のテキスト、グラフ、ツールの使用ログなどを、構造化された質問-回答ペアやアクションシーケンス（行動の連鎖）に変換します。

💡 例えるなら：モデルの中に「記憶の宮殿」を構築するようなイメージです。単なる知識の蓄積ではなく、情報を効率的に引き出し、活用するための構造を作り上げています。

普通のAIと違って「研究プロセス」を学習するって、具体的にどういうことですか？

通常のAIは「次にどんな単語が来るか」を予測するように訓練されていますが、Tongyi DeepResearchは「どうやって情報を集めて、どう整理して、どう結論を出すか」という一連の流れを学習しています。たとえば、ビジネスで市場調査をする際、「まず業界レポートを探す→競合企業の情報を集める→データを比較する→結論をまとめる」という手順がありますよね。Tongyi DeepResearchはこのような多段階の思考プロセスそのものを訓練データに組み込んでいるため、単なる質問応答ではなく、実際のリサーチ業務に近い動きができるのです。

ステップ2：難易度を高めた合成QA生成

微調整の段階では、数千人のアノテーターを雇用する代わりに、高難度の質問-回答ペアを自動生成しています。

ただ質問を作るだけでなく、情報を意図的に隠したり曖昧にしたりすることで、エージェントに推論を強制します。さらに、質問の難易度を集合論的に定義し、体系的に難易度を調整できるようにしています。

🔍 具体例：

簡単な質問：「東京の人口は？」
難しい質問：「2020年代に急成長した日本の都市のうち、IT産業が集積している地域で、かつ外国人居住者比率が一定値を超えている都市は？」

後者のような質問に答えるには、複数のソースから情報を統合し、条件を満たす対象を絞り込む必要があります。

ステップ3：教師あり微調整（SFT）のコールドスタート

強化学習を始める前に、教師ありデータでベースラインの性能を確保します。ここでは2種類のアプローチを採用しています：

① ReActモード（リアクトモード）

古典的な「思考（Thought） → 行動（Action） → 観察（Observation）」のループです。

② IterResearch（反復研究モード）

Tongyi独自の新しいアプローチで、各ラウンドごとにコンテキストをリセットします。これにより、すべての情報を1つの巨大なメモリに詰め込むことを避け、推論をクリーンに保ちます。

⚠️ なぜこれが重要か？
長時間の調査では、情報が蓄積しすぎてモデルが「自分のメモに埋もれる」状態になりがちです。IterResearchは必要な情報だけを保持することで、この問題を回避しています。

ステップ4：強化学習（RL）でさらに洗練

最終段階では、GRPO（Group Relative Policy Optimization）という独自手法を用いたオンポリシー強化学習を実施します。

モデルはシミュレートされたWeb環境（実際のAPIコールは不要）で試行錯誤を繰り返し、質の高い研究成果を生み出すことに対して報酬を受け取ります。

🎯 工夫ポイント：
質の低いネガティブサンプル（失敗例）をフィルタリングすることで、訓練の安定性を保っています。これにより、長時間の訓練でもモデルが崩壊しません。

2つの実行モード｜用途に応じた使い分け

Tongyi DeepResearchは、タスクの複雑さに応じて2つのモードを提供しています。

モード1：ReActモード（標準モード）

プロンプトの工夫なしに、シンプルに「思考 → 行動 → 観察」のサイクルを回します。
メリット：シンプルで効果的。基本性能がわかりやすい。
適用場面：比較的単純な調査タスク

モード2：ヘビーモード（IterResearch）

より難しいタスク向けに、各ラウンドで作業スペースを再構築し、必要な情報だけを保持しながら継続的にレポートを構築していきます。

さらに、マルチエージェント統合にも対応しており、複数の研究エージェントが並行して作業し、統合エージェントがその結果をまとめる仕組みも実装されています。

💡 イメージ：
複数のリサーチャーが異なる角度から調査を行い、最終的にチームリーダーがすべての情報を統合してレポートを作成する、というプロセスに似ています。

実際にビジネスで使う場合、どちらのモードを選べばいいんでしょうか？初心者には難しそうですが…

基本的にはReActモード（標準モード）から始めるのがおすすめです。「特定企業の最新ニュースを調べたい」「競合製品の価格比較をしたい」といった比較的シンプルなリサーチなら、このモードで十分対応できます。一方、ヘビーモードは「3年間の業界トレンドを複数のソースから分析して、来年度の戦略提案を作成したい」といった、複数の調査を統合する必要がある複雑なタスク向けです。使い分けのコツは「一度の検索で答えが出るか、複数回の調査が必要か」で判断すると良いでしょう。

実際の活用事例｜もう実用段階に到達

Tongyi DeepResearchは、すでに実際のサービスで活躍しています。

事例1：高德地図（Gaode/Amap）のAIアシスタント『Xiao Gao（小高）』

地図AIアシスタントとして、複数日にわたるロードトリップを計画できます。
たとえば「ペット同伴OKのホテルに泊まりたい」「観光スポットAとBを必ず訪れたい」といった複雑な制約条件も考慮した旅程を提案します。

事例2：通義法睿（Tongyi FaRui / 法務研究エージェント）

若手弁護士のように、法令、判例、関連文書を横断的に検索し、適切な引用とともに整理します。単なる答えではなく、根拠となるエビデンスとともに提示することで、法務専門家の業務を強力にサポートします。

✅ 共通点：どちらも「単なる検索結果の羅列」ではなく、複数の情報源を統合し、文脈を理解した上で実用的な提案を行う点が特徴です。

なぜこのアプローチが成功したのか？

Tongyi DeepResearchの成功から学べる重要な教訓があります：

データの質 > アルゴリズムの複雑さ

強化学習の仕組み、シミュレーション環境、反復的なQA生成エンジン——これらすべてが示唆しているのは、「秘伝のアルゴリズム」がなくても、合成データのループが堅牢で安定していれば、十分に強力なシステムを構築できるということです。

また、もう1つの重要なポイントは、ランダムなテキストで事前学習するだけではエージェントは生まれないという事実です。

研究とは、一連の行動、意思決定、メモリ管理のプロセスです。Tongyi DeepResearchのパイプラインは、これを明示的に組み込んでいます。

現時点での課題と限界

もちろん、完璧なシステムではありません。以下のような制約があります：

⚠️ コンテキスト長の制限：128kトークンでは、真に長期的な研究タスクには制約がある
⚠️ スケーラビリティの検証：より大規模なモデルでの検証は今後の課題
⚠️ 強化学習の効率性：部分的ロールアウトやオフポリシー手法の導入で改善の余地あり

ただし、概念実証（Proof of Concept）としては非常に強力です。オープンソースのエージェントが、クローズドソースのシステムと競争できることを証明しました。

まとめ｜AI研究の未来は「オープン」にある

Tongyi DeepResearchは、「より賢いチャットボット」を目指したわけではありません。その真の価値は、LLMを本格的な研究アシスタントに変え、複雑で多段階の推論を安定して実行できるようにした点にあります。

そして何より重要なのは、完全オープンソースであることです。研究者、スタートアップ、さらには趣味でAIを触っている人々まで、誰もがこの手法を研究し、改良し、活用できます。

💪 次のステップ｜あなたも試してみよう

大手企業のクローズドなシステムに頼るだけでなく、オープンソースの選択肢も広がっています。

「許可を待つ必要はない。自分自身の研究者を作ればいい」

🚀 さあ、あなたも次世代のAI研究エージェントを手に入れましょう！

この記事の著者

Mehul Gupta

DBS銀行のデータサイエンティスト。生成AIの実務活用や教育に精通し、情報発信も積極的に行う。

Mehul Gupta（メフル・グプタ）は、DBS銀行のデータサイエンティストであり、著書『LangChain in Your Pocket』の著者としても知られています。 AIや機械学習の知見を発信するプラットフォーム「Data Science In Your Pocket」を主宰し、 Mediumでは350本以上の技術記事を執筆するトップライターとして活躍中です。過去にはTata 1mgにて医療データのデジタル化にも取り組みました。趣味はギター演奏とAI教育への貢献です。

この記事は著者の許可を得て公開しています。

元記事：https://medium.com/data-science-in-your-pocket/tongyi-deepresearch-goodbye-chatgpt-deepresearch-058b40cbc772