【AIファクトリー】 (3) AIファクトリーにおける合成学習とは：2026/1/7

本記事では、データセンター（AIファクトリー）における学習の3つの階層（①事前学習、②Fine-tuning、③RAG）から、タービン開発のような専門分野への応用、そして効率的なデータ作成術まで、その実態を網羅的に解説します。

合成データ生成：人間が一つずつ問題と回答を作るのではなく、「賢いAI（先生役）」に「専門資料（原材料）」を読ませて、「学習用データ（製品）」を自動量産させるというアプローチ

1. 知能を形作る3つの階層：事前学習、Fine-tuning、RAG

データセンターで行われる処理は、その目的とコストによって大きく3つに分類されます。これらはよく「教育と実務」に例えられます。

LLM（大規模言語モデル）そのものをゼロから作り上げる工程です。

既存のモデルに対し、特定の分野のデータを追加して「重み（脳の配線）」を微調整する工程です。

モデル自体は書き換えず、外部のデータベースから必要な情報をその都度検索して回答に組み込む手法です。

「FT（Fine-tuning）は不要」という声がありますが、これは半分正解で半分間違いです。用途を間違えると、コストばかりかかって成果が出ないためです。

FTが不向きなこと： 「新しい知識の記憶」。最新の在庫数や昨日のニュースを覚えさせるなら、RAGの方が圧倒的に安くて正確です。
FTが不可欠なこと： 「振る舞いの矯正」。独自の設計思想に基づく推論ロジック、特殊な数式表現、あるいは特定のCADソフト専用のコード出力など、AIの**「思考の癖」を変える**にはFTしかありません。

専門分野（タービン開発など）に特化したAIファクトリーでは、これら3つを組み合わせて「自律型エンジニアリング」を実現します。

フェーズ	学習・運用の形態	具体的な内容
見積	RAG	過去の受注実績や現在の材料コストをデータベースから引き、最適価格を算出。
設計・開発	Fine-tuning	独自の設計線図や物理法則（PINNs）を学習。人間には不可能な「効率を極限まで高めた翼形状」を生成。
製造・品質	Fine-tuning	熟練工の加工時の微調整（音や振動の判断）を学習し、自動で加工パスを補正。

合成データ生成：FT（Fine Tuning）の効果を最大化するには良質なデータが必要ですが、人間が一つずつ問題と回答を作るのではなく、「賢いAI（先生役）」に「専門資料（原材料）」を読ませて、「学習用データ（製品）」を自動量産させるというアプローチ。

社内の用語集や過去の技術レポートを、AIに学習しやすい「命令（プロンプト）と回答」のセットに自動変換します。

「先生AI（Teacher LLM）」の活用:GPT-4oやClaude 3.7、Gemini 1.5 Proといった最上位モデルを「データ作成者」として使います。
作成フロー:
1. 原材料投入: 社内用語集や技術論文のPDFを先生AIに読み込ませます。
2. 自動生成: 「この用語を使って、エンジニア同士のリアルな会話文を10パターン作れ」「この用語の意味を間違えて覚えている新人への解説文を作れ」と指示し、数千〜数万の学習用ペアを作らせます。
3. 自動検品: 別のAI（または同じAI）に「生成されたデータが技術的に正しいか」を判定させ、低品質なものを自動排除します。

設計線図のような「視覚情報」をAIが理解できる「論理情報」へ変換するのが、最新のマルチモーダルAIによるデータ化です。

設計線図を「数式・ルール」に翻訳する:AIは画像そのものよりも、**「この線図は、Xが10のときYは5になるという物理法則を示している」**というテキストベースの論理を学習する方が得意です。
作成フロー:
1. Visionによるデジタル化: 画像解析に強いAIに設計線図を読み込ませ、曲線の座標値や変化の法則を抽出させます。
2. シミュレーション・データ生成: 抽出した法則に基づき、「もし入力がAなら、設計線図によれば出力はBになる」というQAデータを、物理エンジンと組み合わせて数万通りシミュレート生成します。
3. グラフの「読み解き方」の言語化: 「この線図の右肩上がりの部分は、材料のクリープ特性による限界を示している」といった、ベテランの解釈を先生AIに言語化させ、それを学習させます。

あなたが構築すべき「データ生産工場」のイメージは以下の通りです。