「なぜその答えになったのか?」

あなたがLLMを使っていて、そう感じたことはないでしょうか?

ChatGPTやClaudeがいくら“正しそうな答え”を出しても、その裏にある思考の筋道や意図が見えないと、不安になる。納得できない。

これは、すべてのLLMユーザーが感じている“本質的なモヤモヤ”です。

実は今、その課題を解決する革命的なアプローチが研究され、成果を上げ始めています。

それが――
**「LLMに、自らの意図を言語化させる」**という手法です。🧭

https://doi.org/10.48550/arXiv.2503.21544


目次

なぜ「意図」が重要なのか?

LLMは、基本的に「確率の高い言葉を出力する機械」にすぎません。

けれど、人間のように**「なぜ、その判断をしたのか?」という内面の動き**を表現できるようになると、状況は一変します。

たとえば数学の問題。
従来のLLMは正答を出しても、その“解く理由”や“注目すべき前提”を語らない。

ところが、意図を言語化させるとこうなります👇


「私はこの問題文の中で、“速度”と“時間”の関係に注目しました。なぜなら、後半に出てくる条件とつながっている可能性があるからです。したがって、まず式Aを立てて検証を始めます。」


…これ、まるで人間の頭の中の声じゃないですか?🧠✨

ユーザーにとってこれは大きな安心材料となり、
AIが本当に“考えている”ように見える効果を生み出します。


LLMに「意図」を持たせることで得られる3つの革新


1|“透明性”が生まれる

LLMが「どう考えたか」を語るようになると、ブラックボックスだった思考回路がユーザーに可視化されます。

ビジネスの場面でも、教育現場でも、
「なぜそう答えたのか?」を説明できるAIは、信頼される。

つまり、信頼性と納得感のあるアウトプットが可能になるのです。


2|精度が上がる|=メタ認知の力をAIに与える

意図を言語化することで、LLMは自分の思考を自己監視するようになります。

これは人間でいう“メタ認知”に近い。

「私は何を知っていて、何をまだ知らないのか?」
「この問いは何を要求しているのか?」

この問い直しができるLLMは、圧倒的に強い。

最新の研究では、
要約、読解、選択問題、論述問題すべてで正答率の有意な向上が報告されています。


3|プロンプトの手間が減る=LLMが自走する

従来のChain-of-Thoughtでは「順番に考えてね」と毎回指示が必要でした。

しかし、意図を持たせるスタイルでは、
最初に一言“考えの方向性”を促すだけで、モデルが自走してくれます。

ユーザーの負荷が圧倒的に軽くなる、
それでいて出力の質は上がる。

まさに、プロンプト革命です。


方法の紹介|意図を語らせるプロンプト例

さっそく使ってみたい方向けに、以下のような構文がオススメです👇


プロンプトテンプレート:

「あなたは論理的に問題を解くAIです。
まず最初に、この問題を解くにあたっての“意図(注目点や方針)”を言葉で示してください。
その後、その意図に基づいてステップを進め、最終的な結論を出してください。」


この一文だけで、
LLMが「なぜ?なにを?どう考えるか?」を丁寧に整理してから解答してくれます。

数学、要約、コンサル提案、面接対策、論述支援、あらゆるシーンで活用可能です。


「意図を言葉にする」方法とは?

― LLMに“内なる声”を与える技術 ―

私たち人間が問題を解くとき、自然と頭の中で自問自答をしています。

「まず、この条件を確認しよう」
「次にこの数字を当てはめてみよう」
「この選択肢は矛盾しているかも…」

このような**“自己対話”=内的ナレーション**こそが、私たちの思考を支えているのです。

実は、こうした自己対話の構造をLLMにも取り入れることで、
モデルの精度や説得力が格段に向上することが分かってきました。✨


なぜ「意図の言語化」が有効なのか?

LLMが問題を解くとき、通常は“与えられた指示”に忠実に従って、直接的な答えを出そうとします。

たとえば:

  • 数学:数式に従って答えを導出

  • 選択問題:最も適切な選択肢を選ぶ

  • 要約:文章を短く言い換える

しかし、それだけでは、途中の思考や注目点が見えず、理解の手がかりが少ないのです。

そこで、プロンプトに次のような一言を加えると、状況が変わります。


「回答を出すとき、自分が何を考えているかを順に言葉で説明しながら進めてください。」


このように“意図を明示する”指示を与えると、LLMは次のように回答し始めます。


「まず問題文から、距離と時間の関係を読み取る必要があると考えました。
次に、速度の公式に当てはめるために、時間を計算します。」


まさに、AIが“自分の頭で考えながら話しているように見える”瞬間です。

この手法は「Speaking with Intent(SWI)」と呼ばれ、近年の注目テーマとなっています。


SWI(意図を示す方法)とBaseline(従来手法)の比較

研究チームは、以下の2つのプロンプト形式を比較し、効果を実証しました。

  1. Baseline(意図を示さない従来型)
     → シンプルな「この問題を解いてください」形式

  2. SWI(意図を示す方法)
     →「自分の考えを説明しながら答えてください」という指示付き形式

この比較を通じて、**「意図の明示」が本当に意味を持つのか?**が問われたのです。

使用されたタスクは以下の3つ。

  • 数学問題(複数ステップを要する論理思考)

  • 選択式クイズ(直感と分析のバランスが問われる)

  • 文章要約(重要な情報の抽出と再構成)


評価のポイントは、3つの「理解」に注目

LLMの出力を評価する際、次の観点が重視されました。

✅ 1|正確な答えを導けているか

単なる偶然の正解ではなく、一貫した論理に基づいて出力できているか。

✅ 2|説明が理解しやすく、納得できるか

モデルが出す“理由づけ”に、人間が「なるほど」と思えるかどうか。

✅ 3|特に要約タスクでは、事実の誤りがないか

元の文章の意味や事実を歪めずに再構成できているか

このように、単なる「正しさ」だけでなく、**人間にとっての“納得感”や“自然さ”**が評価の軸となっています。


実験①|数学問題でSWIはどう効果を発揮したか?

数学は、直感では解けないことが多く、段階的な推論プロセスが必要な分野です。

そこで、SWIの手法が最も活きる領域として、数学問題が実験対象に選ばれました。

✔ 使用されたデータセット

本実験では、数学的推論力を測定するために以下のベンチマークが使われました。

  • GSM8K:小学生〜中学生レベルのステップ型数学問題

  • AQUA-RAT:選択式の複雑な計算問題

  • SVAMP:数的関係を変換しながら解く問題集

これらの問題は、単に情報を引き出すだけでは解けず、
問題文の解釈→式の構築→計算の順序制御という多段階の論理処理が求められます。


結果|「意図を話す」だけで精度はここまで上がる

実験の結果、SWI(意図を示す方法)を導入したLLMは、従来のBaseline形式と比較して明確な精度向上を示しました。

  • 正答率:+8〜12%

  • 推論の一貫性:大幅に改善

  • 出力の読みやすさ・説得力:ユーザー評価で上位

これは、単に「答えを出す」AIではなく、「なぜその答えに至ったのかを語れるAI」へ進化した証です。

実験での比較方法|「AIに意図を語らせる」効果は、こうして検証された

「本当に意図を言語化させるだけで、そんなに違いが出るのか?」

この問いに答えるために、研究チームは厳密な実験設計のもと、複数の推論タスクを通じて従来手法との比較を行いました。

まず評価基準として重視されたのは、以下のポイントです。


🎯 評価指標:

  1. 正答率|モデルが導き出した答えが正しいか

  2. 推論の整合性|思考の流れが論理的で一貫しているか

  3. 理解のしやすさ|人間にとって説明が明快で納得できるか


さらに比較対象として選ばれたのは、既存の推論促進手法――

  • Chain-of-Thought(CoT)

  • ARR(Analyzing, Retrieving, Reasoning)

  • Plan-and-Solve(PS)

これらの手法は、いずれも“思考を段階的に進める”アプローチですが、自らの意図を言語化するという視点はありませんでした。

この違いこそが、実験の核心だったのです。


実験結果|「意図を語るAI」は、もはや別次元へ

✔ 数学問題での明確な性能向上

まず数学問題における実験では、**意図を示す方法(SWI)**は、明らかに他の手法よりも高い正答率を示しました。

  • SWI:高精度・高整合性の推論を実現

  • Baseline:一貫性に欠け、誤った推論も多い

  • CoT・ARR:一定の改善はあるが、SWIほどの安定性はない

難易度の高い多段階問題においても、SWIは一貫した論理の筋道を維持しており、特に“計算の順序を誤る”などのケアレスミスが激減。

人間が「声に出して考える」ように、モデル自身が“自分の考えを確認しながら進める”ため、精度が飛躍的に向上したのです。


他タスクへの応用|「SWIは数学だけの技術ではない」

では、この効果は数学だけに限られるのでしょうか?

答えはNO。
実験はさらに「多肢選択式の質問」「文章要約」へと展開されました。


📚 多肢選択式問題への応用

選択問題では、複数の選択肢を慎重に比較・評価しなければなりません。

従来のモデルは“最も確率の高い選択肢”を選ぶ傾向にあり、選択理由の曖昧さが問題でした。

しかしSWIを導入すると、

「この選択肢は前提条件と矛盾があるため除外します。
一方、Bの選択肢は文脈と一致しており…」

というように、モデルが論理的に選択肢を検討するプロセスが出力されます。

結果:

  • 正答率:+9〜15%の上昇

  • 回答の説得力:ユーザー評価で圧倒的上位

  • 論理的整合性:全体にわたって安定

SWIが導入されたモデルは、「なんとなく選ぶ」から「根拠をもって選ぶ」AIへ進化しました。


✍️ 文章要約への応用

要約タスクは、単なる文章の短縮ではありません。

元の文章の主張・事実関係を保持しつつ、重要情報を再構成する高度な読解と編集能力が求められます。

ここでのSWIの威力は次の通りです:

  • モデルは最初に「この文章の焦点は〇〇である」と意図を明示

  • 要約の内容に対し、「なぜこの部分を残したか」説明がつく

  • ROUGEスコア・F1スコア共に向上(最大+12%)

さらに注目すべきは、**ファクトエラー(事実誤認)**の大幅減少。

SWIを使った要約では、「元の文章にない事実を創作する」ようなケースが激減し、信頼性の高い要約が実現されました。


人間による「意図の質」評価|AIの自己説明はどこまで通用するか?

モデルが語る「意図」が、どの程度人間に通用するのか。
その“わかりやすさ”と“信頼性”を確かめるために、人間による主観評価も実施されました。


👁 評価観点は以下の3つ:

  • 整合性(Coherence)
     → 話の筋が通っているか?

  • 有効性(Effectiveness)
     → 問題解決に役立つ意図か?

  • 理解しやすさ(Interpretability)
     → 人間が読んで「なるほど」と思えるか?


✔ 評価結果:

  • 多くのケースで「意図の整合性と有効性」が高評価

  • 説明に論理的筋道があり、読者の理解を支援

  • 特に教育・医療・法務系の分野で有効性が際立った

ただし、抽象的すぎる意図冗長な説明が見られるケースもあり、
「明確に、簡潔に、目的を伝える」よう調整することで、さらなる効果が期待されます。


結論|意図を語れるAIは、“使えるAI”へと進化する

本記事で紹介した「SWI(Speaking with Intent)」という手法は、
単なるプロンプトテクニックではありません。

それは――
AIが思考の理由を語り、自律的に論理を構築し、信頼される存在へと進化する方法です。


✅ まとめ:

  • 意図を言語化することで、正答率・整合性・信頼性すべてが向上

  • 数学だけでなく、選択問題・要約・推論系タスク全般に有効

  • 人間がLLMを理解し、LLMが人間に寄り添う――そんな未来を可能にする

最新情報をチェックしよう!

論文の最新記事4件