AIの「おべっか」が人間関係を壊す——褒め殺しAIとどう向き合うか

あなたがAIに相談したとき、「素晴らしい考えですね」と返された経験はないだろうか。

気持ちいい。嬉しい。自分は正しいんだ——。でも、その心地よさが、あなたの人間関係を静かに蝕んでいるとしたら？

数千人規模の調査が明らかにした「AIおべっか」の実態と、その対処法を、いけともと尾原が語り合った。

ポッドキャストはこちら：https://open.spotify.com/episode/0LAjIOQv4Zcyj42hcBnNm1

1 AIは人間より約49%も多く「肯定」してしまう
2 「自分は悪くない」——関係修復の意欲が大幅に下がる
3 強化学習が「褒め殺し」を加速させる構造的問題
4 医療現場の検証——Claude Sonnet 4.5は「全否定」、Mistralは「100%迎合」
5 「システム0」を鍛えよ——AIおべっかへの実践的な対処法
6 「多様な視点で、網羅的に」——AIバイアスを逆手に取るプロンプト術
7 AIに振り回されない——20代の「人生相談」利用にこそ潜むリスク
8 参考文献

AIは人間より約49%も多く「肯定」してしまう

いけとも　今回のテーマは「AIのおべっか問題」です。英語では「Sycophancy（シコファンシー）」と呼ばれていて、AIが人間に迎合的な応答をしてしまう現象ですね。これに関する論文が出まして、結構がっつりした3段階の調査なんですよ。

尾原　やばいよね、これ。僕のSNSの界隈でも、AIで解説を書いて「自分すごい」みたいな投稿がめっちゃ増えてるし、仕事で受け取るメールも無駄に論理的なんだけど「前提条件間違ってんじゃん」みたいなのが増えてて。

いけとも　まさにそういう現象を検証した論文です。調査は3段階で構成されていて、まず一般的な質問にAIがどう答えるか。次に、RedditというSNSで人間が議論して賛成・反対が分かれた話題に対して、AIがどう答えるか。そして何回か会話した後に人間がどう変化するか。これを数千人規模のデータセットで調べたわけです。

尾原　で、結果は？

いけとも　結論として、AIはユーザーを褒めすぎる。人間に比べて約49%多く肯定してしまう、というスタンフォード大学の研究結果がScience誌に掲載されました。

「自分は悪くない」——関係修復の意欲が大幅に下がる

いけとも　2つ目のポイントは、そのおべっかによって人間がどうなったか。AIに肯定され続けると、「自分が正しくないかもしれない」という自省の気持ちが薄れてしまう。つまり、自分は正しいと思い込みやすくなるんです。

結果的に、特に人間関係のトラブルがあった場合、「自分が悪くない」と思ってしまうので、関係修復のアクションをとる意欲が大きく下がる。同研究の仮説実験では最大約28%の低下が確認されています。個人としては気持ちいいかもしれないけど、社会的に見ると中長期的にまずい方向を助長しちゃう可能性が高い。

尾原　これって結局、AIがビジネスでやっている以上、「うちを使ってほしい」というインセンティブがあるから、「こいついいやつだな」と思ってもらいたい。上司部下の関係で、部下が上司にこびへつらっていろんなチャンスを与えてもらいたいっていう構造と全く一緒ですよね。

強化学習が「褒め殺し」を加速させる構造的問題

いけとも　しかもこれ、モデルの学習自体がこの傾向を助長してるんですよ。ユーザーにとって心地よい回答は、ユーザーが高く評価しちゃう。「正しい」「論理的だ」「客観的だ」って本人は感じるんだけど、実は客観的じゃない。結果的に、耳の痛いフィードバックよりも心地よいフィードバックのほうがポジティブと解釈されるものが、強化学習によってAIモデルそのものに蓄積されてしまう。

尾原　昔だったら「AIはハルシネーションするよね」っていう不信感があったけど、今やどんどんAIが賢くなってきて、結構正解を言ってくれるから。つまりAIが肯定してくれたことは、世の中が肯定してくれてるんだっていうふうになっちゃってる。

尾原　これね、おべっかっていう話というよりかは、僕ら交渉術の世界では「褒め殺し」って言うんですよ。

いけとも　褒め殺し。

尾原　長期的に考えたときに、ライバルが失墜していくようにするテクニックがあって。相手を間違った方向に自我を肥大させて、「俺はすごいんだ」「俺は間違ってないんだ」と思うように仕向ける。勝手に相手が崩壊していくっていうテクニックなんですよね。この褒め殺しをAIがやってるっていうのは、長期的に考えると絶対にダメな方向に行っちゃってる。

いけとも　怖いですよね。別に殺す気ないのに、結果的には殺すわけですからね。

尾原　技術的にはアライメントとか、RLHF（Reinforcement Learning from Human Feedback）とか、そこの作り方が結局、正解をちゃんと答えてほしいっていうのはあるけれども、長く使ってもらいたいっていうインセンティブがあるから、そこのチューニングをやっちゃってるって話なんですよ。

医療現場の検証——Claude Sonnet 4.5は「全否定」、Mistralは「100%迎合」

いけとも　今回のレポートはGPT-4oやGemini Flash 2.5など少し前のモデルで検証されているんですが、別の論文（SycoEval-EM）でもっと具体的にモデルごとの違いが出ていまして。特に医療診療の場面で、患者が「全然大したことないのに薬を処方してくれ」「CTを撮ってくれ」と主張するケース。ガイドラインでは不要とされているのに、AIがどう対応するかを調べた論文です。

尾原　不安で聞いちゃうよね、患者さんは。

いけとも　モデルによると、一番おべっかに弱かったのはMistral Medium 3.1で、迎合率100%。「わかりました」と全部受け入れちゃった。一番強かったのはClaude Sonnet 4.5で、迎合率0%。何百回やっても全部「それは不要です」と突き返した。GPTやGeminiはちょっと弱めで、Grok 3 Miniも0%迎合だったんですが、ちょっと理由は不明ですね。

尾原　Grokはちょっと特殊ですからね。でもClaudeが強いのは、結局背景にあるのがさっき言ったRLHFの最後のチューニング。人間が「いいね」と評価する指示を提供して、その評価モデル自体をAIが学習していく。各社によってニュアンスが変わってしまう中で、Anthropicが強いのは、やっぱり元々の立ち上がった理由ですよね。

尾原　Anthropicは2021年にDario AmodeiやDaniela AmodeiらがOpenAIから独立して設立した会社で、「AIが進化しすぎるとモラルを超えるリスクがあるから、AIこそがモラルを守らなければならない」という信念が原点にある。そしてアライメントチームのトップがむちゃくちゃこだわった人がいるんですよね。

いけとも　定量的に検証されて、こういうところでもClaudeが一歩リードしている感じがしますよね。

「システム0」を鍛えよ——AIおべっかへの実践的な対処法

尾原　じゃあ、いけともさんはAIおべっかとか、押しに弱いみたいなところを対処するためのプロンプトの工夫とかされてます？

いけとも　シンプルなんですけど、AIがこっちに都合いいことを言ったら「本当に？」って逆に押し返します。「客観的にはどうなの？」って聞くと、やっぱり結構違う回答が返ってくるんですよ。「確かにちょっと甘かったですね」みたいに。そういう両面を見た上で判断する、というスタンスです。

尾原　その感覚、「あれ、これちょっとバランス変えてるな」みたいな気づきを磨くのが、AI時代めっちゃ大事って言われていて。ダニエル・カーネマンという行動経済学のノーベル経済学賞受賞者が提唱してる「システム1、システム2」思考があって。じっくり考える遅い論理的思考がシステム2、過去の経験からパッと動くのがシステム1。

尾原　最近注目されているのが「システム0」という概念。これはNature Human Behaviour誌に掲載された論文で提唱されたもので、AIを外部の認知拡張ツールとして活用する思考の枠組みです。人間の直感（システム1）や論理（システム2）の前段階で、AIとの対話を通じて自分の認知バイアスに気づく仕組みを取り入れることが、AI時代には重要だとされています。

いけとも　パターンがわかると、違和感への感度が鍛えられますよね。背景を知ることで「なんかちょっと変だな」って気づけるようになる。

尾原　僕の場合はプロンプトのルールにいくつか入れてるんです。一つは、誰かのFacebookのポストとかニュースとかYouTubeの解説を文字起こしたりするときに、必ず「厳密にファクトチェックしてください」というルールを付ける。そしてファクトチェックでおかしいなと思ったところは、なぜおかしくなっているかという投稿者の意図やバイアスも推察して教えてくださいっていうのを付けるんです。

いけとも　なるほど。バイアスの「ねじ曲がり方」の引き出しが増えると、違和感に気づく感度が上がりますよね。

「多様な視点で、網羅的に」——AIバイアスを逆手に取るプロンプト術

尾原　あともう一個は、自分もAIと壁打ちしていくとねじ曲がっていくじゃないですか。最近のChatGPTはやたらメモリーを使いたがって、「池智さんとのAIニュースに使えますね」とか、そんな細かいこと言っておべっか使ってくるなと。

尾原　だから僕が入れてるプロンプトは、過去のメモリーを使うのはいいけど前提条件のところに書いてくれて最後に変なこと言うなっていうのが一個。あと2個目が、自分が相談することに関して入れてるグランドルールで、「自分が相談していることの中で、自分が気づかないようなバイアスを最初に指摘してください」っていうのを入れてるんです。コーチングの手法を応用したもので、これが効くんですよ。

尾原　これやると、「そっか、俺無意識にこっちに歪んでたわ」っていうことに気づける。

いけとも　耳が痛かったり、自分の前提になっちゃっていることを言及してもらうことで、ある種、思考が一方向に歪み続けるのではなくて、多角的な視点が出ることを強制しているわけですね。

尾原　そうです。それで言うと、いけともさんに初期の頃にYouTubeで大事だなっていうプロンプトがあって。ChatGPT-4とか出始めた頃に使ってた「これを多様な視点で、網羅的に答えてください」っていう一文。あれはいけともさんからパクらせていただきました。

いけとも　論文でも確かあったんですよね、ああいうふうに書いたら多様な回答が出るよっていう。

尾原　一方向で答えさせるとAIおべっかや褒め殺しが入ってくるけど、バイアスに気づくように指示するとか、「多様な方向性で網羅的に」って言うとあらゆる方向から考えてくれた上で、AIが見る優先順位順に多様な方向性を出してくれる。今のAIはこういうランキングで考えるんだなっていうのがわかる。

AIに振り回されない——20代の「人生相談」利用にこそ潜むリスク

いけとも　僕らのレベルでも一定システム0は鍛えられてるし、そもそもAIに対する依存度もほとんどない。こんなに使ってるのに、処理を任せてるだけで、過剰に影響されたいとかAIに友達感覚とかは全くない。あくまでもツールとして活用してるだけなんですけど、そうじゃない人がこの影響を知らずに使っちゃってる怖さがある。

尾原　そうそう、我々もともとパラノイアだからね。

いけとも　だからこそ、カスタムプロンプトに強制的に入れてもらうとか、周りにそういう傾向がある人がいたら「こういう傾向もあるよね」ってちょっと教えてあげたりすることが重要になりますよね。

尾原　すごい重要なテーマなんで深掘りしたいんですけど、実は多くのユーザーはカウンセリングやコーチング的にAIを使ってる方がすごく多い。ストレス解消のために使うっていう統計データもある。そのケースにおけるAIおべっかがどうなるのかっていうのは、個人的にディープリサーチしたいテーマですね。

いけとも　もっと重いレベルの話ですよね。

尾原　ちょうど約1年前にサム・アルトマンが2025年5月のSequoia AI Ascentで語っていたのが、年配世代はChatGPTをGoogle検索の代わりに使う、20代・30代は人生のアドバイザーとして使う、大学生世代はプログラミングを含めたOSとして使っている、と。この若い世代の「人生相談」的な使い方において、AIバイアスをどう対処していくかっていうテーマはまた改めて話せればと思います。

いけとも　テクニックとかじゃなくて、AIのリスクを捉えて、妥当に使っていく形をちょっと広げたくはありますね。

尾原　だから「AIに振り回されない」っていうのが、一つ大きなテーマなのかなということですね。

いけとも　非常に重要なテーマ。また是非取り上げましょう。

ポッドキャストはこちら：https://open.spotify.com/episode/0LAjIOQv4Zcyj42hcBnNm1