LLMはなぜマルチターンの会話でつまずくのか？

1 Microsoft×Salesforceの最新研究が解き明かす構造的課題と今すぐできる対策 💡
2 なぜマルチターンで精度が落ちるのか？
- 2.1 「単発での指示」は得意。でも…
3 最新研究の概要｜「情報不足の会話」で検証された5つのシナリオ
- 3.1 実験設計の中心：「シャーディング手法」とは？
  - 3.1.1 例：数学問題を5つのシャードに分割
4 方法の紹介｜5つの会話形式でLLMの挙動を比較
5 実験の規模｜20万回以上の会話で精度を検証
6 評価対象となったLLM一覧｜オープン・クローズド問わず徹底比較！🧠
7 実験結果｜マルチターンで全モデルが「迷子」になる？📉
- 7.1 まず押さえたい、最も重要な発見
8 指示の与え方で性能が激変する！
9 モデルごとの差｜意外と大規模モデルも弱い？
10 モデルの特性別パフォーマンス傾向
11 時間をかけても解決しない？⏳
12 スコアの低下は「能力」ではなく「信頼性」の問題
- 12.1 具体的には…
13 モデルが「迷子になる」4つのパターン📌
14 情報の出し方を変えるだけで、信頼性が劇的に変わる？

Microsoft×Salesforceの最新研究が解き明かす構造的課題と今すぐできる対策 💡

生成AIを業務に活用する場面が増える中、**「複数のやり取りを通じて目的を明確にしていく」**という使い方は、いまや当たり前になりました。

たとえば、
「ざっくりとお願いして、あとで細かく条件を伝える」
「話しながら方向性を変える」
そんな“曖昧なやりとり”こそ、実務の現場では多く発生します。

しかし、最新の大規模言語モデル（LLM）たちは、このような**“マルチターンの対話”**をどれだけ理解できているのでしょうか？
それに対する明確な答えが、いままであまりありませんでした。

そこで今回、MicrosoftとSalesforceの研究チームが共同で、大規模な実験を通して以下を徹底分析しました。

なぜLLMはマルチターンでつまずくのか？
その背景にある構造的な原因とは？
私たちユーザーが今できる実践的な対策は？

本記事では、最新研究の全貌とともに、**現場で使える“対話の工夫術”**まで解説します。
AIと本気で向き合いたい方、必読です！📘

https://doi.org/10.48550/arXiv.2505.06120

なぜマルチターンで精度が落ちるのか？

「単発での指示」は得意。でも…

多くのLLMは、最初から全ての条件が揃った明確な指示に対しては高精度で応えます。
しかし、現実の業務ではそんなに親切な状況ばかりではありません。

実際には、

最初はざっくりした要望だけ
話しながら情報を追加
条件が変わる
…というような、“情報が足りない・揺れる”やり取りが主流です。

こうした段階的な情報更新＝マルチターン会話では、LLMが途中で文脈を取り違えたり、途中で見当違いな返答をすることが頻発しています。

方法の紹介｜5つの会話形式でLLMの挙動を比較

研究では、以下の5パターンの会話形式が用意され、15種類のLLMが検証されました。

形式	概要
FULLY-SPECIFIED	最初から全情報が揃った状態（通常評価）
SHARDED	情報を段階的に提示（本研究のメイン）
CONCAT	全シャードを1ターンで提示（文章は分割）
RECAP	SHARDEDの最後に全情報を再提示
SNOWBALL	各ターンで新情報＋過去情報も再提示

このフレームにより、
「どの提示方法がLLMの精度を上げるのか？」
「情報の渡し方がLLMの挙動にどう影響するのか？」
が明らかになりました。

実験の規模｜20万回以上の会話で精度を検証

使用されたLLM：15種類（GPT-4.1、Claude-3.7 Sonnetなど）
タスク数：6ジャンルから600の指示
各条件ごとに10回ずつシミュレーション
総会話数：20万回以上

さらに、**温度（T=1.0）**固定で安定性の検証も実施。
単なる平均スコアではなく、モデルごとの一貫性・信頼性も評価されています。

評価対象となったLLM一覧｜オープン・クローズド問わず徹底比較！🧠

今回の実験で評価されたのは、以下の15種類の代表的なLLMです。

モデル名	開発元
GPT-4o-mini	OpenAI
GPT-4o	OpenAI
o3	OpenAI
GPT-4.1	OpenAI
Claude 3 Haiku	Anthropic
Claude 3.7 Sonnet	Anthropic
Gemini 2.5 Flash	Google
Gemini 2.5 Pro	Google
Llama3.1-8B-Instruct	Meta
Llama3.3-70B-Instruct	Meta
Llama 4 Scout	Meta
OLMo-2-13B	AI2
Phi-4	Microsoft
Deepseek-R1	DeepSeek
Command-A	Cohere

評価対象には、300B規模の大規模モデルから、8Bの軽量モデルまでが含まれています。
また、オープンウェイト（公開モデル）とクローズドウェイト（非公開モデル）の両方が揃い、さらに**追加の推論時間を活用するモデル（o3、Deepseek-R1）**までカバー。

この広がりによって、「モデルのサイズ・構造・設計思想」による違いを横断的に比較することができました。

💰推定コスト：約5,000ドル。
20万回以上の会話ログを収集・分析する大規模実験であり、投資に見合う価値ある成果と言えるでしょう。

実験結果｜マルチターンで全モデルが「迷子」になる？📉

まず押さえたい、最も重要な発見

どのモデルであっても、例外なくマルチターン（分割指示形式）では精度が大きく低下したのです。
その下がり幅は、平均で**39%**に達しました。

研究チームはこの現象を――

「Lost in Conversation（会話で迷子になる）」

と命名しています。

単一ターン（完全指示形式）では90%以上の正答率を記録したモデルでも、
情報を段階的に提示する形式に変わった途端、正答率が急落するケースが多発しました。

指示の与え方で性能が激変する！

✅ 完全指示形式（FULLY-SPECIFIED）：モデルの最大能力が発揮される
✅ 連結指示形式（CONCAT）：情報が分割されていても一度に提示されるなら問題なし（95.1%）
❌ 分割指示形式（SHARDED）：情報を小出しにすると迷子になる（-39%）

つまり、モデルの混乱は**“情報の小出し”によって引き起こされている**のです。
情報の「言い換え」や「分割そのもの」が問題なのではなく、「タイミング」と「流れ」が本質的な要因です。

モデルごとの差｜意外と大規模モデルも弱い？

注目すべきは、以下のようなハイスペックモデルでも大きく性能が下がった点です。

Claude 3.7 Sonnet
GPT-4.1
Gemini 2.5 Pro

これらは完全指示では高スコアだったにもかかわらず、マルチターンでは30〜40%ものスコア低下が見られました。

逆に、小型モデル（Llama3.1-8B、OLMo-2-13Bなど）は、連結指示形式でも性能低下が確認されました。
文の構造や言い換えに対する柔軟性が低く、形式の違い自体がノイズになりがちです。

モデルの特性別パフォーマンス傾向

分野ごとのパフォーマンスには以下のような傾向もありました：

Command-A → Actions系タスクに強み
Claude 3.7 Sonnet / GPT-4.1 → Code系タスクで優位
Gemini 2.5 Pro → Data-to-Text系に安定感

つまり、「マルチターンに強いかどうか」はタスクとの相性や内部設計にも依存していると考えられます。

時間をかけても解決しない？⏳

興味深いのは、**追加の思考時間を活用するモデル（o3やDeepseek-R1）**も、
マルチターンではやはりスコアが下がっていた点です。

これらのモデルは平均して33%長めの返答を出していたものの、
その結果として「仮定が入りすぎて会話の整合性が崩れる」ケースが目立ちました。

❗「よく考える＝うまくいく」ではない
❗「長い出力＝丁寧」ではない

という、私たちが直感で信じがちな前提が否定されたとも言えます。

スコアの低下は「能力」ではなく「信頼性」の問題

モデルの「能力（何ができるか）」自体は、単一ターンでもマルチターンでもそれほど変わりません。

しかし、マルチターンでは――
👉 同じ条件でも答えが毎回違う＝信頼性が落ちる
という現象が起きています。

具体的には…

小型モデルはもともとブレやすい
高性能モデルは、マルチターンになると「揺れ」が2倍以上に増える

つまり、どんなモデルでもマルチターンになると不安定になるのです。

これは、**「どれだけ賢くても迷子になる」**という現在のLLMの限界を示しています。

モデルが「迷子になる」4つのパターン📌

研究チームが分析した「迷子」の傾向は以下の通りです。

情報不足のまま、勝手に前提を立てて早とちりする
一度の誤答を引きずって説明がどんどん複雑化する
会話の最初と最後に偏重し、中間の情報を軽視する
回答が冗長になり、問いの焦点からズレていく

まさに、私たちがLLMと話していて「だんだん話がズレてきた」と感じるときの特徴そのものです。

情報の出し方を変えるだけで、信頼性が劇的に変わる？

追加実験では、「指示をいくつのシャードに分けるか」が、信頼性の鍵であることも判明しました。

1シャード（完全指示）→ 最も高い精度
2シャード以上に分けた途端にスコアが急落

これは、GPT-4o / GPT-4o-miniの両方で確認されました。

この結果は、実際の活用場面においても極めて実用的な示唆を与えてくれます。

✅ なるべく一度にまとめて指示する
✅ 段階的に伝えたい場合は、中間の要約を挟む

という対話テクニックが、応答の安定性を高める鍵となるのです。

次のセクションでは、
研究結果から見えてきた「LLM開発者・エンジニア・ユーザー」それぞれの立場への実践的アドバイス
をお届けします。

それでは引き続き、LLMのマルチターン耐性について深掘りしていきましょう！🔍💡

最新情報をチェックしよう！

フォローする