
2025/09/13(土)
環境問題に関心のあるエンジニア、AI業界関係者、そして持続可能な技術に興味のある皆さん、こんな疑問を抱いたことはありませんか?
「ChatGPTやGeminiを使うたびに、どれくらい環境に負荷をかけているんだろう?」
実は、これまでのAI環境負荷に関する議論の多くは、学習フェーズに焦点を当てていました。
GPUが何週間も稼働し続け、巨大なモデルがエネルギーを大量消費する、あの話です。
しかし現実は違います。今のAIの主戦場は推論(inference)なのです。
つまり、あなたが毎日使うChatGPTへの質問、Geminiでの検索、自動補完機能。
これらが1日に何十億回も実行されているのが現状です。
そして多くの人が「1回の質問でどれくらいのエネルギー、炭素、水を消費するのか」を推測している中、Googleがついに実際の本格測定を行いました。それも本番環境のGeminiアプリ全体で。
結果は? 驚くほど低い数値でした。他の研究が主張していた数値と比べて、です。
さらに重要なことは、Googleが「なぜ他の業界の測定方法は間違っているのか」を明確に示したことです。
この記事では、Googleが何を行ったのか、なぜそれが重要なのか、そして他の研究がどこで的を外していたのかを詳しく解説します。
「学習」と「推論」って何が違うんですか?私たちが普段使っているのは推論の方なんですか?
はい、その通りです!「学習」は莫大なデータを使ってAIモデルを作る段階で、これは一度だけ行われます。一方「推論」は、完成したモデルを使って実際に質問に答える段階です。私たちがChatGPTに「今日の天気は?」と聞くのは推論フェーズですね。学習は数ヶ月に一度ですが、推論は毎秒何万回も実行されているので、実はこちらの方が環境負荷の主要因になっているんです。
目次
Googleが実際に測定したGemini 1回の質問(プロンプト)の環境負荷は以下の通りです:
✅ エネルギー消費量:0.24 Wh
✅ CO₂排出量:0.03グラム
✅ 水消費量:0.26 mL
この数値を日常生活に置き換えると:
📺 テレビを9秒間視聴するエネルギー量よりも少ない
💧 水は約5滴分
📧 短いメールを1通送信する際の炭素排出量と同等
これまでの研究では、1回のAI質問で以下のような数値が報告されていました:
Googleの結果と比較すると、10倍以上の開きがあることが分かります。
💡 さらに驚くべき事実 わずか1年前、同じGeminiシステムで同じ質問をした場合:
消費していました。この劇的な改善は、Google独自の最適化技術によるものです。
0.24Whとか0.03グラムって言われても、正直ピンとこないんですが…
確かにそうですね!私も初めて見た時は「?」でした。0.24Whは電子レンジを1秒間使うエネルギーと同じです。0.03グラムのCO₂は、車で約20cm走る時の排出量に相当します。つまり、AI質問1回の環境負荷は「スマホの画面を数秒見る」「息を1回吐く」レベルということです。これなら普段の生活で気にするほどの負荷ではありませんね。
⚠️ 従来の測定方法の問題点
これまでの環境負荷推定は、大きく2つのアプローチに分かれていました:
しかし、Googleの調査によると、これらの方法では実際のエネルギーコストの半分以上を見落としていることが判明しました。
従来の測定で除外されていた項目:
🔹 CPU + DRAM使用量 – ホストマシンも電力を消費し続けている
🔹 アイドル容量 – トラフィック急増に備えて待機中のマシンもエネルギーを消費
🔹 冷却 + インフラ オーバーヘッド – データセンターを稼働させるファン、ポンプ、変圧器
🔹 実際の利用パターン – すべてのサーバーが100%稼働しているわけではない
結論:研究室スタイルのベンチマーク ≠ 本番環境の現実
🎯 包括的測定(Comprehensive Measurement)とは
Googleは推測ではなく、本番環境のGemini全体でエネルギー使用量を測定しました。計算を行うチップだけでなく、それを支えるすべてのシステムを含めてです。
つまり、実際に存在するものすべてを含めることで、従来比で2倍以上の差が生まれました。
なぜGoogleの測定結果は、これまでの研究と10倍も違うんですか?どちらが正しいんでしょうか?
Googleは「本番環境全体」を測定したのに対し、従来の研究は「実験室での一部分」しか見ていなかったんです。例えるなら、従来研究は「車のエンジンだけの燃費」を測定していたのに、Googleは「エアコン、ライト、カーナビも含めた実走行での燃費」を測定したということです。冷却システムや待機中のサーバー、CPUなども含めると、実際のエネルギー消費は理論値の2倍以上になります。Googleの数値の方が現実に近いと考えられます。
Googleは市場ベース会計(market-based accounting)を使用して炭素排出量を計算しました。これはGoogleのクリーンエネルギー調達を反映したものです。
測定範囲:
結果:1回の質問あたり0.03 gCO₂
水消費量も、インフラ冷却に消費される水をベースに測定され、GoogleのWUE(Water Usage Effectiveness:水使用効率)で正規化されました。
結果:1回の質問あたり0.26 mL
🔍 重要なポイント Googleは立地、季節、冷却方法など、他の研究で通常省略される要素もすべて制御しました。つまり、この数値は最良条件での推測値ではなく、実際に起こっていることを反映しています。
💪 Googleが徹底的に最適化した結果です
これらは単なる理論上の最適化ではありません。大規模グローバルフリート全体での実世界展開です。
📊 業界の測定値との徹底比較
Googleは自社の数値を公開するだけでなく、既存の主張と比較し、業界がどれほど的外れかを示しました。
一部の推定値は10倍以上の誤差があることが明らかになりました。
Googleは同じモデル(Llama 3.1 70B)を使用して、測定方法の違いがどれほど結果に影響するかを検証しました。
結果:580回/kWh〜3600回/kWh
つまり、測定方法だけで6倍の差が生まれることを実証しました。
💡 Googleからの明確なメッセージ 「同じ基準で測定していない限り、エネルギー数値を比較するのは無意味」
❗ 1回の質問あたりのエネルギー数値を信用する前に、「何を測定したか」を必ず確認する
なぜなら、効率的に見えるものと実際に効率的なものの間のギャップは想像以上に大きいからです。
🎯 次にAI環境負荷について議論する時は
🌱 環境負荷の少ないAI活用を目指すなら
この研究により、AI技術の環境負荷について、より正確で建設的な議論ができるようになりました。AIが地球を破壊するという極端な懸念から、データに基づいた現実的な評価へとシフトする重要な一歩と言えるでしょう。
🚀 AIの未来は、技術革新と環境配慮の両立にあります。正しい情報を基に、持続可能なAI社会を一緒に築いていきましょう!
参考:この記事は、Google DeepMindの”Measuring the environmental impact of delivering AI at Google Scale”論文を基に作成されています。最新の研究動向については、公式発表をご確認ください。
DBS銀行のデータサイエンティスト。生成AIの実務活用や教育に精通し、情報発信も積極的に行う。
Mehul Gupta(メフル・グプタ)は、DBS銀行のデータサイエンティストであり、 著書『LangChain in Your Pocket』の著者としても知られています。 AIや機械学習の知見を発信するプラットフォーム「Data Science In Your Pocket」を主宰し、 Mediumでは350本以上の技術記事を執筆するトップライターとして活躍中です。 過去にはTata 1mgにて医療データのデジタル化にも取り組みました。 趣味はギター演奏とAI教育への貢献です。
この記事は著者の許可を得て公開しています。
Workstyle Evolution代表。18万人超YouTuber&著書『ChatGPT最強の仕事術』は4万部突破。
株式会社Workstyle Evolution代表取締役。YouTubeチャンネル「いけともch(チャンネル)」では、 AIエージェント時代の必須ノウハウ・スキルや、最新AIツールの活用法を独自のビジネス視点から解説し、 チャンネル登録数は18万人超(2025年7月時点)。