RAGとは何か — ChatGPTに自社データを使わせる仕組み

RAG（Retrieval-Augmented Generation／検索拡張生成）は、ChatGPTのような汎用AIが回答する前に、社内文書を「カンニング」してから答える仕組みです。社内データをAIに学習させなくても、AIに参照させるだけで「うちの会社専用のChatGPT」に近いものが作れます。中小企業のオーダーメイドAI開発で、いま最もコストパフォーマンスが良い手法です。

「ChatGPTに自社の資料を読ませたい」「社内のマニュアルを質問形式で引けるようにしたい」——この種の相談は、ここ1年で一気に増えました。一方で、「ファインチューニングとどう違うのか」「いくらかかるのか」「何を準備すればいいのか」と聞かれると、明確な答えに出会いにくいのも事実です。

ここを整理しないまま発注に進むと、本来RAGで十分な業務に独自モデル開発が混ざって見積もりが膨らんだり、逆にデータ整備を後回しにしたまま導入して精度が出なかったり、ということが起きます。

なぜいま「社内データをAIに読ませたい」が増えているのか

総務省の令和7年版情報通信白書によると、2024年度の企業のAI利用率は49.7%。前年度の42.7%から7ポイント上がりました。一方で、ChatGPTを入れたものの定着しない、という相談も同時に増えています。背景はChatGPTを導入したのに、なぜ業務に活きないのかで整理したとおりで、原因の一つはChatGPTが御社の社内情報を知らないことです。

「過去の見積もりと比べてどうか」「就業規則の第何条に該当するか」「先月の役員会で何を決めたか」——これらに、汎用ChatGPTは答えようがありません。学習データに含まれていないからです。

ここで出てくるのがRAGです。「学ばせる」のではなく、「質問のたびに参照させる」。これがRAGの基本的な発想です。

RAGの仕組み — AIが答える前に「カンニング」している

3ステップで動いています。

1. 事前準備（インデックス化）

社内文書（PDF、Word、Notion、Googleドライブ等）を細かく分割し、それぞれをベクトル（意味を数値化したもの）として保存します。NVIDIAの公式解説では、この処理を「ベクトルデータベースへのインデックス化」と呼んでいます。

2. 検索フェーズ

利用者が質問すると、その質問もベクトル化され、意味的に近い社内文書が引き出されます。キーワード一致ではなく「意味の近さ」で探すので、表現が違っていても拾えるのが強みです。

3. 生成フェーズ

ChatGPTやClaudeに、「ユーザーの質問」と「引き出した社内文書」をセットで渡します。AIは社内文書を参考にしたうえで回答を作ります。

イメージとしては、試験会場で先生（ChatGPT）に質問する前に、関連ページを開いた教科書を毎回手渡しているようなものです。先生は教科書の中身を覚える必要がない。質問のたびに該当ページを見て答えるだけです。

ファインチューニングとどう違うのか — 学ばせるか、参照させるか

「自社AIを作る」と聞いて多くの人が思い浮かべるのは、ファインチューニング（追加学習）ではないでしょうか。両者は似て非なる手法です。

観点	RAG	ファインチューニング
何をするか	質問のたびに社内文書を参照させる	AIに社内データを追加学習させる
データ更新	ファイル差し替えで即反映	再学習が必要
出典の提示	「どの文書から答えたか」を示せる	出典は出せない
費用感（中小企業）	50〜150万円	200〜500万円
向く業務	社内ナレッジ検索／FAQ対応	専門用語・独自文体の生成
苦手	文体の模倣・行間を読む	情報の鮮度・出典提示

AWSのRAG解説ページでは、ファインチューニングと比べたRAGの利点として「再学習なしに最新情報を取り込める」「出典付きで回答できるため検証可能性が高い」「コストが大幅に低い」が挙げられています。

実務上の使い分けは、こう考えるのが現実的です。

情報の正しさを問われる業務（社内ナレッジ検索、FAQ、見積もり参照、規程確認）→ RAG
文体や専門表現が問われる業務（特定業界の生成、独自スタイルのライティング）→ ファインチューニング
両方欲しいケース → 基本はRAG、必要に応じてファインチューニング併用

中小企業のオーダーメイドAI開発の8〜9割は、RAGで十分です。私たちMewtonがお請けする案件でも、最初からファインチューニングを推奨するケースは多くありません。費用構造の詳細はオーダーメイドAI開発の費用が30〜100万円になる理由にまとめています。

中小企業でRAGが効く業務 / 効かない業務

RAGは万能ではありません。「文書として書かれていること」しか参照できないのが本質的な制約です。

効く業務（具体例）

社内ナレッジ検索: 就業規則、業務マニュアル、過去議事録から質問形式で引き出す
顧客対応の一次回答: 過去のFAQやサポートログを参照し、初動の返信案を作る（設計の全体像は問い合わせ一次対応AIの作り方で別途整理）
見積もり・契約のドラフト: 過去の見積書・契約書を引っ張ってきて雛形を提示
規程・法令チェック: 「この案件は社内規程のどこに該当するか」を提示
議事録の検索と要約: 「あの件の決定は何月何日の会議だったか」を遡って探す

効かない／向かない業務

数値計算や厳密な集計: AIは数字に弱い。会計や在庫管理の処理は別ツール（RPAやBI）の仕事
暗黙知が中心の業務: 文書化されていない判断、勘どころは拾えない
頻繁に変わる現場知識: ファイル更新の運用が回らないと、すぐ陳腐化する
個別性が極めて高い創造業務: デザイン案出し、戦略立案そのものは人間の仕事が残る

判断軸は単純です。「いま、誰かに口頭で答えてもらっている内容のうち、文書化されているもの」がRAGの対象になります。

「文書化はされていないが、属人化していて困っている」という業務は、RAGの前にまず文書化を考える必要があります。ここを飛ばすと、どんなに良いAIを入れても精度は出ません。

導入で詰まる3つの落とし穴

事前に共有しておきたい落とし穴です。発注前に把握しておくと、無駄な投資を避けられます。

1. 権限管理を後回しにする

社員Aさんに見せていい文書と、Bさんには見せられない文書がある——これは中小企業でも普通にあります。RAGを作るときに権限設計を後回しにすると、「役員会議事録を一般社員のAIが答えてしまった」という事故につながります。

MicrosoftのAzure OpenAI / Use your dataでは、データソース側のアクセス権をRAGの応答にも反映させる設計が前提とされています。ユーザーごとに参照範囲を切り替える仕組みを、最初から組み込んでおく必要があります。

2. ハルシネーション（もっともらしい嘘）が消えるわけではない

RAGを使えばハルシネーションがゼロになる、という説明をたまに見かけますが、これは事実と違います。

Stanford大学のHAI（Human-Centered AI Institute）が2024年に実施し2025年にJournal of Empirical Legal Studiesで査読出版された法律分野のAIツール評価では、LexisNexisやThomson ReutersといったRAG実装の商用ツールでさえ、回答の17〜33%にハルシネーションが含まれていたと報告されています。「RAGを入れれば誤答が消える」ではなく、「確率は下がるが、ゼロにはならない」が現実です。

実装上の対策は、①出典（ソース文書）を必ず併記する、②回答に低い確信度しか持てないときは「該当文書が見つかりませんでした」と返す、③重要業務では人間レビューを必須にする、の3点です。

3. データが整っていないのに「先にツール選定」してしまう

これが一番多い失敗です。「Notion AIにするか、ChatGPTのカスタムGPTにするか、オーダーメイドにするか」という比較表を作る前に、そもそも参照させたい文書がどこにあり、最新版がどれか、誰が更新しているかを棚卸ししたほうがいい。

データの棚卸しが甘いまま導入すると、回答の半分が「古い情報」「重複した情報」「誤った情報」になります。RAGは入力した文書の品質をそのまま反映する仕組みなので、ここで手を抜くと結果に直結します。

費用感と最初の一歩

費用は規模で大きく変わります。

構成	費用感	期間
既製SaaS（NotebookLM、Notion AI 等）	月数万円〜	即日〜1週間
カスタムGPT・Dify等のノーコード	0〜30万円	1〜3週間
オーダーメイドのRAG構築	50〜150万円	1〜3ヶ月
大規模・基幹システム連携あり	300万円〜	3〜6ヶ月

中小企業の現実的な入口は、まず既製SaaSで価値があるかを試すこと。NotebookLMやChatGPTのカスタムGPTで30件程度の文書を読み込ませて、「これで業務が楽になりそうか」を体感する。

ここで手応えがあれば、オーダーメイドのRAG構築に進む価値があります。逆に「便利だけど、毎日は使わなさそう」なら、いったん見送る判断もあって構いません。AIエージェントと組み合わせた自動応答にまで広げる場合は、AIエージェントとは何か — RPAやChatGPTと何が違うのかもあわせて読むと、判断軸がはっきりします。

Mewtonでの取り組み方

私たちMewtonでは、RAGを「とりあえず作ります」ではなく、3つの判断から始めています。

その業務に必要な文書は、いま社内のどこにあるか
その文書は更新運用が回っているか（誰が、どの頻度で）
ChatGPTのカスタムGPTやNotebookLMで足りないか

ここで「既製で足りる」と判断したら、無理にオーダーメイドを勧めません。オーダーメイドが必要だと判断した場合、典型的には30〜100万円の規模で、1〜2ヶ月かけて構築します。詳しくはオーダーメイドAI開発のサービスページでご案内しています。「何が必要かをまず整理したい」段階であれば、AI顧問という月額10万円の伴走支援から始めることもできます。

RAGは派手な技術ではありませんが、地味に業務を楽にしてくれる、いま最も投資対効果の高い領域だと考えています。