~文書を「パラメータ」に変換してLLMに注入する革新的アプローチ~

生成AIの進化が止まりません。

特に、RAG(検索拡張生成)は、「情報の正確性」と「文脈理解」の両立を目指すアプローチとして、ビジネス現場や研究分野で急速に普及しています。

しかし──。

RAGにはひとつ、大きな壁がありました。

それは、「関連文書をコンテキストとして渡す方式」ゆえに、 長文になるほど幻覚(ハルシネーション)を起こしやすいという欠点です。

この問題を根本から解決しようとするのが、
今回ご紹介する最新手法── DyPRAG(Dynamic Parameterized RAG) です。

https://arxiv.org/abs/2503.23895


文書を「読む」のではなく「注入する」

~DyPRAGの基本的な考え方~

従来のRAGでは、検索された関連文書を「プロンプト内に貼り付ける」形で、LLMに渡します。

これはIn-context learningの一種であり、有効な手法ではありますが、以下のような制限があります。

  • 入力長の制限に引っかかる(トークン上限)

  • 専門文書になると意味の解釈が曖昧になる

  • モデルが途中で情報を「忘れる」

そして何より、「幻覚」を誘発する大きな要因にもなります。

そこで、DyPRAG。

DyPRAGでは、文書をLLMに「文章」として渡すのではなく、
LLMの内部パラメータとして注入するという、まったく新しいアプローチを採用しています。

たとえるなら、

📄「渡された資料を読む」のではなく、
🧠「その資料を読んだ状態の脳を一時的にインストールする」感覚です。


DyPRAGが誕生するまでの背景

~PRAGとの違いも解説~

この技術は、中国科学院の研究者らによって2025年3月に発表されたものです。

実はその前身として、「PRAG(Parameterized RAG)」という手法が存在していました。

PRAGでは、検索された文書をLoRAなどで事前学習し、パラメータ化する手法を採用していましたが──

すべての文書に対して個別にLoRAを適用する必要があり、
現実的な運用にはほど遠いものでした。

▼ PRAGの課題

  • 文書ごとに事前学習が必要

  • 運用コストが高すぎる

  • 動的な文書に弱い

そこで生まれたDyPRAG。

DyPRAGは、毎回の学習なしに、検索された文書を即座にパラメータ化し、
LLMに一時的に注入するという柔軟な方式に進化しました。

これにより、RAGにおける忠実性・即時性・低コストの3つを同時に実現しています。


DyPRAGの技術構成

~文書 → パラメータ注入までの流れ~

DyPRAGの処理フローは以下のようになります。

  1. ユーザーのクエリをもとに、関連文書を検索(Retriever)

  2. 検索文書をエンコードし、テンポラリな重み(パラメータ)に変換

  3. このパラメータを、LLM内部に一時的に統合

  4. 統合された状態で、自然言語による回答を生成

このアプローチでは、もはや入力長に縛られない

さらに、LLMは文書の「断片」ではなく、「構造的な意味全体」を保持した状態で応答するため、
ハルシネーションが極めて発生しにくくなるのです。


注意点|誰でも使えるわけではない

ただし、この手法を実際に活用するには注意点があります。

DyPRAGは、LLMのパラメータに動的にアクセス可能な環境が前提です。

つまり──

  • OpenAIのGPT-4シリーズのような「重み非公開」のモデルでは実行不可能

  • 独自LLMや、パラメータ注入を許可しているOSS系モデルに限定

これは技術的にもインフラ的にもハードルが高く、
現時点では、エンタープライズ用途 or 研究用途に向いた手法といえます。

方法の紹介

〜DyPRAGが文書を「知識」に変えるプロセス〜

DyPRAG最大の特徴は、「文書を直接LLMに埋め込む(注入する)」こと。
それを可能にするのが、3ステージ構成のパイプラインです。


✅ ステージ1:文書からLoRAパラメータを生成する(オフライン)

まず最初にやるべきは、文書とその意味を変換できる「パラメータ化」の準備です。

  1. ユーザーの質問に対応する文書を検索

  2. それをQA(質問と回答)ペアに変換

  3. そのQAペアを元に、小さなLoRAパラメータを生成(LLMを軽く微調整する)

この一連の流れを通じて、「文書 → 知識パラメータ」ペアが作成されます。

このパラメータはLLMに注入する準備が整った状態の知識であり、たった480ペア程度のサンプル数でも十分な精度が出るのが特徴です。


✅ ステージ2:パラメータ変換器の訓練(オフライン)

次に、文書をリアルタイムでパラメータ化できるようにする「翻訳器」を学習させます。

  1. 先ほど生成した「文書 ↔ パラメータ」ペアを学習データとして使用

  2. 小さなニューラルネットワーク(MLP)により「パラメータ変換器(Parameter Translator)」を訓練

  3. この変換器が、「どんな文書が来ても即座にLoRAパラメータに変換」できるようになります

この変換器こそが、DyPRAGの中核。

外部情報をモデル内部にスムーズに融合させる“知識インジェクター”です。


✅ ステージ3:実際の推論(オンライン)

ユーザーが質問を送信してきた時、DyPRAGは以下の流れで応答します。

  1. 関連文書をRetrieverで検索(通常のRAGと同じ)

  2. 検索結果を「パラメータ変換器」に通してLoRAパラメータへ変換

  3. そのパラメータをLLMに一時的に注入

  4. モデルがその知識を持った状態で、回答を生成

こうして得られた回答は、まるで事前学習済みモデルのように精度が高いものになります。

これは、DyPRAGが実現する「知識融合(Knowledge Fusion)」の力。

既存のLLMの知識 + 外部ドキュメントの知識
この2つを違和感なく合成できる、まさに次世代のRAGです。


成果|どれほど効果があるのか?📊

DyPRAGの効果は、単なる理論ではなく実証データで裏付けられています。

下記の実験結果から、明らかになったポイントを整理します。


💡 主な成果ポイント

  • DyPRAG-Combine(パラメータとコンテキストを同時に渡す)構成が全タスクで最高性能

  • 従来のPRAGと比べて、ストレージコストはたったの0.04%

  • わずか480ペアで訓練可能、データコストも圧倒的に低い

  • 未知タスク(OOD)においても、20%以上スコア改善

たとえば、LLaMA3-8BモデルでDyPRAGを適用すると、
平均F1スコアが43.69% → 57.93%までジャンプアップ。

小規模モデルにほど恩恵が大きいという特性が際立っています。


まとめ|DyPRAGは「軽くて強い」RAGの進化形

従来のRAGでは、「正確に答えたいけど、情報を読み込ませすぎると幻覚が出る」というジレンマがありました。

DyPRAGは、その問題を根本から解決するアプローチです。

✅ 文書をリアルタイムでパラメータ化
✅ LLMの内部に知識として注入
✅ 精度・汎化性ともに向上
✅ 小さなモデルでも高精度化可能

とくに小型LLMを業務に組み込みたい企業やプロジェクトにとっては、
「軽くて、安定していて、高性能」という三拍子がそろったソリューションです。

最新情報をチェックしよう!

RAGの最新記事4件