
2025/07/30(水)
✨ この記事はこんな方におすすめです!
2025年7月にQwen3-2507シリーズがリリースされ、AI業界に大きな話題を呼んでいます。Qwen3-235B-A22BでKimi-K2を上回る性能を示し、続いてQwen3-Coder、Qwen3-MTと立て続けにリリース。そして今回登場したのがQwen3-Thinking-2507です。
これは単なるファインチューニングや指示追従の改良版ではありません。構造化された、ステップバイステップの推論能力に特化したモデルです。
目次
Qwen3-Thinking-2507は推論能力を別次元に押し上げました。論理、数学、科学の問題、コーディングなど、実際にステップバイステップで考える必要がある分野で、単なる「それらしい答え」ではなく、真の思考プロセスを実行します。
注目ポイント:
💡 実用例: 書籍一冊分の内容を丸ごと読み込ませても、処理能力が落ちることがありません!
このモデルは純粋に「思考」タスクのために設計されており、思考モードのみで動作します。
内部的に計画マーカー(<think>など)を含む構造になっており、明示的に追加しなくても自動的に思考プロセスが組み込まれます。出力が</think>で終わっている場合、それは設計通りの動作です。カジュアルなチャットではなく、バックグラウンドで思考している証拠なのです。
「思考モード」って言われても、普通のAIとどう違うんですか?何か特別なことをしているんでしょうか?
Qwen3-Thinking-2507は複雑な問題に対して、ステップバイステップで段階的に考えてから回答を提供するモード専用に設計されています。普通のAIが「質問→即座に回答」なのに対し、思考モードでは「質問→内部で段階的に推論→回答」という流れになります。例えば数学の問題なら、内部に<think>…</think>タグで思考プロセスを表現し、問題を複数のステップに分解して一歩ずつ解決していく過程が見えるんです。
項目 | 詳細 |
総パラメータ数 | 2,350億個 |
アクティブパラメータ数 | 220億個(推論時) |
専門家(Experts)数 | 128個(うち8個が同時アクティブ) |
レイヤー数 | 94層 |
アテンション設定 | GQA:クエリ64ヘッド、キー/バリュー4ヘッド |
ネイティブコンテキスト長 | 262,144トークン |
MoEのメリット: 大容量の知識を保持しながら、実際の計算負荷は軽量。1回の推論で使用される計算量を抑えつつ、高い性能を実現しています。
MoEって、なんだか難しそうですが、簡単に言うとどういう仕組みなんですか?
複数の専門家モデルを組み合わせて使用する手法で、入力データに応じて、それぞれの専門家モデルの出力を重み付け平均することで、1つのモデルよりも高い性能を発揮できます。Qwen3-235B-A22Bでは、128個の専門家の中から8個を同時にアクティブ化し、総パラメータ数は235Bですが、実際に使用されるのは22Bのアクティブパラメータです。会社組織に例えると、「全部門の全員が毎回会議に参加する」のではなく、「案件に応じて必要な部門の専門家だけが参加する」ような効率的な仕組みです。これにより、大容量の知識を保持しながら計算負荷を軽量に抑えられます。
AIME25ベンチマーク:
HMMT25ベンチマーク:
GPQA(科学的推論):
LiveCodeBench(最も注目すべき結果):
CFEval:
⚠️ 注意点: OJBenchでは前バージョンの25.6点から32.5点へと大幅向上。ただし、他の主要ベンチマークと比べると相対的にスコアが控えめです。
複数ステップのツール使用と計画立案で大幅な性能向上を実現しています。
ベンチマーク | 前バージョン | Qwen3-Thinking-2507 | 改善率 |
TAU2-Retail | 40.4点 | 71.9点 | +78% |
TAU2-Telecom | 21.9点 | 45.6点 | +108% |
単なるスコア向上ではなく、異なる領域での意思決定能力が根本的に向上していることを示しています。
WritingBench:
Creative Writing:
MultiIF:
PolyMATH:
最も簡単な方法は、公式のWebインターフェースを使用することです。
👉 Qwen Chat で今すぐ試してみる
より技術的なアプローチを好む方や、カスタマイズしたい方には以下がおすすめです。
👉 Hugging Face: Qwen/Qwen3-235B-A22B-Thinking-2507
💡 推奨される使い方:
✅ エージェント開発
✅ 長文コンテキスト推論
✅ 複雑な問題解決
❌ 向いていないタスク
推論特化のAIって、実際にどんな場面で使えばいいんでしょうか?普通の作業には向いていないんですか?
推論特化AIは複雑な問題に対してステップバイステップで丁寧に考える必要がある分野で真価を発揮します。具体的には、数学的証明の構築、科学的仮説の検証、複雑なプログラミング問題の解決、長期的な計画立案などが得意です。一方で、簡単なメール要約やカジュアルな会話には向いていません。人間でいうと「大学受験の数学や物理の問題は得意だけど、日常会話は苦手な理系の研究者」のようなイメージです。時間をかけて深く考える必要がある作業なら大きな力を発揮しますが、素早いレスポンスが必要な軽い作業には適していないんです。
Qwen3-Thinking-2507は「何でもできるチャットボット」を目指していません。考えることに特化したモデルです。
💪 こんな方は今すぐ試してみてください
派手な宣伝も誇大広告もありません。ただ、より優れた「頭脳」がここにあります。
🚀 今すぐアクション:
推論特化AIの新時代が始まりました。ぜひこの革新的なツールを体験してみてください!
DBS銀行のデータサイエンティスト。生成AIの実務活用や教育に精通し、情報発信も積極的に行う。
Mehul Gupta(メフル・グプタ)は、DBS銀行のデータサイエンティストであり、 著書『LangChain in Your Pocket』の著者としても知られています。 AIや機械学習の知見を発信するプラットフォーム「Data Science In Your Pocket」を主宰し、 Mediumでは350本以上の技術記事を執筆するトップライターとして活躍中です。 過去にはTata 1mgにて医療データのデジタル化にも取り組みました。 趣味はギター演奏とAI教育への貢献です。
この記事は著者の許可を得て公開しています。
元記事:Qwen3-Thinking-2507 : The best reasoning LLM is here
Workstyle Evolution代表。18万人超YouTuber&著書『ChatGPT最強の仕事術』は4万部突破。
株式会社Workstyle Evolution代表取締役。YouTubeチャンネル「いけともch(チャンネル)」では、 AIエージェント時代の必須ノウハウ・スキルや、最新AIツールの活用法を独自のビジネス視点から解説し、 チャンネル登録数は18万人超(2025年7月時点)。