近年、GoogleやOpenAIといった大手テック企業が相次いで研究エージェント機能をリリースし、AI支援による情報収集と分析の可能性が注目を集めています。そんな中、Alibabaの通義(Tongyi)研究所が発表したTongyi DeepResearchは、その常識を大きく覆す存在です。
完全オープンソースでありながら、有料のプロプライエタリ(独占的)システムと競合できる性能を実現しています。
これは単なる「検索ができるチャットボット」ではありません。複数の情報源を横断的に調査し、計画を立て、論理的に推論し、まるで新人アナリストや若手弁護士のように情報を統合できる本格的なWebエージェントなのです。
目次
主要な評価指標において、Tongyi DeepResearchは以下のスコアを記録しています:
これらの数値が意味するのは、クローズドソースの最高峰モデルと競合する性能を、誰でもダウンロードして検証・実行できる形で提供しているということです。

✅ 研究者・データアナリスト:複数の論文や資料を横断的に調査したい方
✅ 法務・コンサルタント:大量の文書から関連情報を抽出・整理したい方
✅ エンジニア・開発者:オープンソースのAIエージェントの仕組みを学びたい方
✅ AI愛好家:最新の研究エージェント技術に触れてみたい方
従来のAI「リサーチ」の多くは、表面的な検索結果の羅列か、プロンプトの工夫による見せかけに過ぎませんでした。しかし、Tongyi DeepResearchは根本的に異なります。その理由は2つあります。
単なるWebスクレイピングや手作業でのアノテーション(データラベリング)に頼るのではなく、大規模な合成データセットを生成してエージェントを訓練しています。これにより、実際の研究プロセスに近い思考パターンを学習できます。
「合成データセット」って何ですか?普通のデータと何が違うんでしょうか?
合成データセットとは、人間が手作業でラベル付けしたデータではなく、AIが自動的に生成した学習用データのことです。Tongyi DeepResearchの場合、実際の研究プロセス(質問→調査→推論→結論)のパターンを大量に自動生成しています。料理に例えると、一人ひとり手作りで教えるのではなく、「こういう時はこう調理する」という何万ものパターンをシステムが自動で作り出して学習させるイメージです。これにより、数千人のアノテーター(データラベリング作業者)を雇うコストをかけずに、大規模な訓練が可能になっています。
次の3段階を経て、エージェント専用に最適化された訓練を行っています:
この結果、モデルは単に「次の単語を予測する」のではなく、複数ステップにわたって推論し、計画を立て、ツールを使いこなす能力を獲得しています。
ここからは、Tongyi DeepResearchがどのように作られたのか、その技術的な仕組みを段階ごとに解説します。
Tongyi DeepResearchは30.5B(305億)の総パラメータを持ち、トークンごとに3.3B(33億)のパラメータがアクティブ化されるMixture-of-Experts(MoE)アーキテクチャを採用しています。これにより、小規模モデルの効率性と大規模モデルの能力を両立させています。
通常のLLM(大規模言語モデル)が単にインターネット上のテキストを読み込むのに対し、Tongyi DeepResearchは「研究プロセス」そのものを学習します。
具体的には、「AgentFounder」と呼ばれるシステムを使って、生のテキスト、グラフ、ツールの使用ログなどを、構造化された質問-回答ペアやアクションシーケンス(行動の連鎖)に変換します。
💡 例えるなら:モデルの中に「記憶の宮殿」を構築するようなイメージです。単なる知識の蓄積ではなく、情報を効率的に引き出し、活用するための構造を作り上げています。
普通のAIと違って「研究プロセス」を学習するって、具体的にどういうことですか?
通常のAIは「次にどんな単語が来るか」を予測するように訓練されていますが、Tongyi DeepResearchは「どうやって情報を集めて、どう整理して、どう結論を出すか」という一連の流れを学習しています。たとえば、ビジネスで市場調査をする際、「まず業界レポートを探す→競合企業の情報を集める→データを比較する→結論をまとめる」という手順がありますよね。Tongyi DeepResearchはこのような多段階の思考プロセスそのものを訓練データに組み込んでいるため、単なる質問応答ではなく、実際のリサーチ業務に近い動きができるのです。
微調整の段階では、数千人のアノテーターを雇用する代わりに、高難度の質問-回答ペアを自動生成しています。
ただ質問を作るだけでなく、情報を意図的に隠したり曖昧にしたりすることで、エージェントに推論を強制します。さらに、質問の難易度を集合論的に定義し、体系的に難易度を調整できるようにしています。
🔍 具体例:
後者のような質問に答えるには、複数のソースから情報を統合し、条件を満たす対象を絞り込む必要があります。
強化学習を始める前に、教師ありデータでベースラインの性能を確保します。ここでは2種類のアプローチを採用しています:
古典的な「思考(Thought) → 行動(Action) → 観察(Observation)」のループです。
Tongyi独自の新しいアプローチで、各ラウンドごとにコンテキストをリセットします。これにより、すべての情報を1つの巨大なメモリに詰め込むことを避け、推論をクリーンに保ちます。
⚠️ なぜこれが重要か?
長時間の調査では、情報が蓄積しすぎてモデルが「自分のメモに埋もれる」状態になりがちです。IterResearchは必要な情報だけを保持することで、この問題を回避しています。
最終段階では、GRPO(Group Relative Policy Optimization)という独自手法を用いたオンポリシー強化学習を実施します。
モデルはシミュレートされたWeb環境(実際のAPIコールは不要)で試行錯誤を繰り返し、質の高い研究成果を生み出すことに対して報酬を受け取ります。
🎯 工夫ポイント:
質の低いネガティブサンプル(失敗例)をフィルタリングすることで、訓練の安定性を保っています。これにより、長時間の訓練でもモデルが崩壊しません。
Tongyi DeepResearchは、タスクの複雑さに応じて2つのモードを提供しています。
プロンプトの工夫なしに、シンプルに「思考 → 行動 → 観察」のサイクルを回します。
メリット:シンプルで効果的。基本性能がわかりやすい。
適用場面:比較的単純な調査タスク
より難しいタスク向けに、各ラウンドで作業スペースを再構築し、必要な情報だけを保持しながら継続的にレポートを構築していきます。
さらに、マルチエージェント統合にも対応しており、複数の研究エージェントが並行して作業し、統合エージェントがその結果をまとめる仕組みも実装されています。
💡 イメージ:
複数のリサーチャーが異なる角度から調査を行い、最終的にチームリーダーがすべての情報を統合してレポートを作成する、というプロセスに似ています。
実際にビジネスで使う場合、どちらのモードを選べばいいんでしょうか?初心者には難しそうですが…
基本的にはReActモード(標準モード)から始めるのがおすすめです。「特定企業の最新ニュースを調べたい」「競合製品の価格比較をしたい」といった比較的シンプルなリサーチなら、このモードで十分対応できます。一方、ヘビーモードは「3年間の業界トレンドを複数のソースから分析して、来年度の戦略提案を作成したい」といった、複数の調査を統合する必要がある複雑なタスク向けです。使い分けのコツは「一度の検索で答えが出るか、複数回の調査が必要か」で判断すると良いでしょう。
Tongyi DeepResearchは、すでに実際のサービスで活躍しています。
地図AIアシスタントとして、複数日にわたるロードトリップを計画できます。
たとえば「ペット同伴OKのホテルに泊まりたい」「観光スポットAとBを必ず訪れたい」といった複雑な制約条件も考慮した旅程を提案します。
若手弁護士のように、法令、判例、関連文書を横断的に検索し、適切な引用とともに整理します。単なる答えではなく、根拠となるエビデンスとともに提示することで、法務専門家の業務を強力にサポートします。
✅ 共通点:どちらも「単なる検索結果の羅列」ではなく、複数の情報源を統合し、文脈を理解した上で実用的な提案を行う点が特徴です。
Tongyi DeepResearchの成功から学べる重要な教訓があります:
データの質 > アルゴリズムの複雑さ
強化学習の仕組み、シミュレーション環境、反復的なQA生成エンジン——これらすべてが示唆しているのは、「秘伝のアルゴリズム」がなくても、合成データのループが堅牢で安定していれば、十分に強力なシステムを構築できるということです。
また、もう1つの重要なポイントは、ランダムなテキストで事前学習するだけではエージェントは生まれないという事実です。
研究とは、一連の行動、意思決定、メモリ管理のプロセスです。Tongyi DeepResearchのパイプラインは、これを明示的に組み込んでいます。
もちろん、完璧なシステムではありません。以下のような制約があります:
⚠️ コンテキスト長の制限:128kトークンでは、真に長期的な研究タスクには制約がある
⚠️ スケーラビリティの検証:より大規模なモデルでの検証は今後の課題
⚠️ 強化学習の効率性:部分的ロールアウトやオフポリシー手法の導入で改善の余地あり
ただし、概念実証(Proof of Concept)としては非常に強力です。オープンソースのエージェントが、クローズドソースのシステムと競争できることを証明しました。
Tongyi DeepResearchは、「より賢いチャットボット」を目指したわけではありません。その真の価値は、LLMを本格的な研究アシスタントに変え、複雑で多段階の推論を安定して実行できるようにした点にあります。
そして何より重要なのは、完全オープンソースであることです。研究者、スタートアップ、さらには趣味でAIを触っている人々まで、誰もがこの手法を研究し、改良し、活用できます。
大手企業のクローズドなシステムに頼るだけでなく、オープンソースの選択肢も広がっています。
「許可を待つ必要はない。自分自身の研究者を作ればいい」
🚀 さあ、あなたも次世代のAI研究エージェントを手に入れましょう!
DBS銀行のデータサイエンティスト。生成AIの実務活用や教育に精通し、情報発信も積極的に行う。
Mehul Gupta(メフル・グプタ)は、DBS銀行のデータサイエンティストであり、 著書『LangChain in Your Pocket』の著者としても知られています。 AIや機械学習の知見を発信するプラットフォーム「Data Science In Your Pocket」を主宰し、 Mediumでは350本以上の技術記事を執筆するトップライターとして活躍中です。 過去にはTata 1mgにて医療データのデジタル化にも取り組みました。 趣味はギター演奏とAI教育への貢献です。
この記事は著者の許可を得て公開しています。
元記事:https://medium.com/data-science-in-your-pocket/tongyi-deepresearch-goodbye-chatgpt-deepresearch-058b40cbc772
Workstyle Evolution代表。18万人超YouTuber&著書『ChatGPT最強の仕事術』は4万部突破。
株式会社Workstyle Evolution代表取締役。YouTubeチャンネル「いけともch(チャンネル)」では、 AIエージェント時代の必須ノウハウ・スキルや、最新AIツールの活用法を独自のビジネス視点から解説し、 チャンネル登録数は18万人超(2025年7月時点)。