Work Horizon編集部
Few-shot と Zero-shot——3行でつかむ違い
- Zero-shot プロンプティング:例示を一切与えずに、LLM自身の事前学習知識だけで回答させる方式。
- Few-shot プロンプティング:プロンプト内に「問題→答え」の完成例を 2〜8 個入れて、モデルがパターンを学習してから本番の問いに答える方式。
- 現代LLMではまず Zero-shot で試し、期待精度が出なければ Few-shot に切り替えるのが実務の定石。さらに難しいタスクは Chain-of-Thought(CoT) と組み合わせる。
本記事では、AIエンジニア・PM・社内AI推進担当向けに、Zero-shot と Few-shot の違い・使い分け・コスト・よくある失敗・実務フローを整理します。関連テーマとしてCoT・プロンプトインジェクション対策・ハルシネーションを併読すると、プロンプト設計の全体像がつかめます。
基本用語:Shot とは何か
「Shot」は「模範例(demonstration)」のこと。プロンプトに何個の模範例を入れるかで以下の3種類に分かれます。
- Zero-shot(0個):例示ゼロ。モデルが事前学習知識だけで回答。
- One-shot(1個):例示1個。特殊フォーマットや少しトリッキーなタスクに効く。
- Few-shot(2〜8個程度):例示複数。タスクの形式・解釈を暗黙にモデルに伝える。
これらはプロンプト内の文脈学習(In-Context Learning)であり、モデルの重みは更新されません。一度のAPIコールの中だけで効果を発揮する手法です。
Zero-shot と Few-shot の決定的な違い
1. 精度の傾向
- Zero-shot:一般的な質問・要約・翻訳・アイデア出しで十分な精度
- Few-shot:フォーマット固定・専門分野・ニュアンスの難しいタスクで優位
2. トークン消費と API コスト
- Zero-shot:プロンプトが短く、コストもレイテンシも小さい
- Few-shot:例示ごとに入力トークンが増え、コスト・レイテンシが比例して増える
3. 設計・保守の手間
- Zero-shot:指示文のみで済み、保守が楽
- Few-shot:良質な例示を選ぶ・更新するコストがかかる
4. モデル規模との関係
小規模モデルほど Few-shot の効果が大きく、大規模モデル(GPT-4o・Claude 3.5・Gemini 1.5 Pro・o1・DeepSeek R1)ほど Zero-shot だけで高精度を出せる傾向があります。インストラクションチューニング済みの最新モデルでは、多くのタスクで Zero-shot で十分です。
用語の重要な注意:Few-shot Prompting と Few-shot Learning は別物
混同されやすいので明示しておきます。
- Few-shot Prompting:プロンプト内に例示を入れるだけの手法。モデル重みは変わらない。
- Few-shot Learning(機械学習):少量のラベル付きデータでモデルを実際に学習する伝統的な機械学習の枠組み。モデル重みが変わる。
本記事で扱うのは前者(Prompting)。後者は Fine-tuning・QLoRA・メタラーニングといった別分野で、機械学習 独学 完全ロードマップで扱うテーマです。
使い分けフローチャート
- タスクが単純・一般的(要約・翻訳・アイデア出し・質問応答)
- → Zero-shot でまず試す。精度が十分ならそのまま運用。
- Zero-shot で精度が足りない、または出力フォーマットがブレる
- → Few-shot に移行。2〜4個の例から始める。
- さらに推論が複雑・多段
- → CoT(Chain-of-Thought)を追加。Zero-shot CoT なら「ステップバイステップで考えてください」を追加。Few-shot CoT なら例示自体に思考ステップを含める。
- 専門ドメインでプロンプト調整では限界がある
- → Fine-tuning または RAG(検索拡張生成)に移行。モデル蒸留も選択肢。
タスク別の実践例
例1:メール分類(Zero-shot で十分なケース)
「次のメールを『緊急』『通常』『スパム』のいずれかに分類してください。
メール: ○○○」
GPT-4o クラスなら Zero-shot でほぼ正しく分類。判定基準のニュアンスが曖昧なら Few-shot に移行。
例2:業界固有フォーマット抽出(Few-shot が有効)
「建設業の見積書から【工事名/工期/金額】を JSON で抽出してください。
例1:
入力: 〇〇ビル新築工事 2026年4月〜2027年3月 総額1億円
出力: {"工事名":"○○ビル新築工事","工期":"2026-04 - 2027-03","金額":"1億円"}
例2:
入力: △△商業施設リニューアル 6ヶ月 2,500万円
出力: {"工事名":"△△商業施設リニューアル","工期":"6ヶ月","金額":"2,500万円"}
本番入力: ...」
フォーマットが厳密なので Few-shot で例示を揃える方が安定。業界特化のプロダクトでは定番のパターンです。
例3:論理推論(Zero-shot CoT が有効)
「田中さんは花子さんの兄、花子さんは太郎さんの母です。田中さんから見て太郎さんはどのような関係ですか?
ステップバイステップで考えてください。」
こうした推論は、Few-shot で例示を増やすより、Zero-shot CoT で思考を促す方が汎用的に効くことが多いです。
例4:感情分析(温度を下げた Zero-shot)
「以下のレビューが『ポジティブ』『ネガティブ』『ニュートラル』のいずれかを判定してください。」
大規模モデルなら Zero-shot で十分。判定基準にドメイン固有の論点がある場合だけ Few-shot にする。
Few-shot プロンプトの設計原則
- 例示は多様性を持たせる:似たような例を並べると偏る。正例・負例・境界ケースを含める。
- 難易度順・難しい→簡単、どちらも試す:タスク次第で効果が変わる。
- フォーマットを完全に一致させる:区切り文字・タグ・JSON構造など統一。
- 例の個数は 2〜8 個:多すぎるとコンテキストウィンドウを圧迫、少なすぎると効かない。
- 本番入力の直前に例示を置く:順序が効く。
- 定期的に例を見直す:モデル更新・業務変化で最適な例は変化する。
Zero-shot プロンプトで精度を上げるコツ
- 役割設定(System Prompt):「あなたは○○の専門家として……」
- 明示的な出力フォーマット指定:「次のJSONスキーマで返答してください」
- 制約条件の列挙:「文字数100以内」「専門用語禁止」など
- CoT トリガーの追加:「ステップバイステップで考えてください」
- 温度設定の最適化:事実重視は低く(0〜0.3)、創造性重視は高く(0.7〜1.0)
- Structured Output(OpenAI・Anthropic・Google がサポート)を活用してフォーマットを強制
よくある失敗とその対策
- 失敗:Few-shot で例示を入れたのにフォーマットがブレる
対策:例示内のフォーマットを完全一致させ、Structured Output を併用する。 - 失敗:Few-shot にしたらコストが跳ね上がった
対策:例示を短く簡潔にする、または本番運用では RAG / Fine-tuning に移行。 - 失敗:Zero-shot で精度が出ない
対策:役割設定・制約列挙・CoT を追加してから Few-shot を検討。 - 失敗:Few-shot の例示がモデルに誤学習させた
対策:多様な例示を使い、境界ケースも入れる。 - 失敗:モデルを変えたら Few-shot の効き方が変わった
対策:モデル更新時は必ず再評価し、例示を調整する。
コストと精度のバランス設計
APIコストは入力トークン数×単価+出力トークン数×単価で決まります。Few-shot は入力トークンが例示分だけ増えるため、大量処理ではコストに直結します。
| 方式 | トークン量 | コスト | 精度 | 保守性 |
|---|---|---|---|---|
| Zero-shot | 小 | 低 | 中〜高 | 高 |
| One-shot | 中 | 中 | 中〜高 | 中〜高 |
| Few-shot (2〜4) | 中 | 中 | 高 | 中 |
| Few-shot (5〜8) | 大 | 高 | 高 | 中〜低 |
| Fine-tuning | 小(推論時) | 中(学習時は大) | 最高 | 低 |
大量処理で Few-shot が高コストになる場合は、Fine-tuning や モデル蒸留 に切り替えるのが定石です。セルフホスト化はAIモデル量子化と組み合わせるとさらにコスト削減できます。
Few-shot / Zero-shot と他技術の関係
- CoT(Chain-of-Thought):Few-shot・Zero-shot と直交して組み合わせ可能。難推論タスクでは必須。詳細はCoT 解説参照。
- RAG(Retrieval-Augmented Generation):検索で得た情報をプロンプト内の「例示」として渡す場合、結果的に Few-shot 的になる。
- Fine-tuning:Few-shot で十分でない場合に選択。モデル重みが更新される点で Prompting と根本的に異なる。
- Structured Output:2024年以降各社が公開した機能で、出力フォーマットを厳密に固定できる。Few-shot の代替となるケースも多い。
- プロンプトインジェクション:Few-shot で提供する例示が攻撃ベクトルになることもある。対策記事参照。
業務別:Zero-shot / Few-shot の活用シーン
カスタマーサポート(社内AI推進担当向け)
- Zero-shot:一般的な問い合わせ分類・回答生成
- Few-shot:商品名・製品ライン特有のFAQ回答
- CoT+Few-shot:トラブルシューティングの多段推論
コード生成・レビュー(エンジニア向け)
- Zero-shot:一般的な言語仕様に沿ったコード生成
- Few-shot:社内コーディング規約・独自フレームワーク対応
- CoT:バグ原因仮説→検証→修正の論理展開
契約書・法務文書(AIコンサル向け)
- Zero-shot:条項の一般的な分類・要約
- Few-shot:業界特有の契約フォーマット抽出
- CoT:リスク評価の論点整理
医療・製薬(医療AI企業向け)
- Zero-shot:用語の標準化・表記揺れ吸収
- Few-shot:診療記録のフォーマット抽出
- CoT+医師監修:鑑別診断の仮説生成(最終判断は医師)
Few-shot を使うべきでないケース
- 例示に機密情報が含まれる:漏洩リスクが高いので避けるかマスキング必須
- 例示バイアスが結果を歪める:多様性を確保できないなら Zero-shot + 明確な指示の方が安全
- コンテキストウィンドウ制限に引っかかる:長文処理では例示を削る
- 大量処理でコストが許容できない:Fine-tuning / 蒸留へ移行
- 最新モデル(o1/o3/R1/Extended Thinking)を使う場合:内蔵推論が強く Zero-shot で十分
実務での推奨プロセス
- Zero-shot で MVP:最短でプロトタイプを作り、実データで精度測定
- 定量評価:業務データ50〜200件で人手評価し、Zero-shot の合格率を算出
- 不合格例から Few-shot 例示を設計:不合格の典型パターンをカバーする例示を2〜4個追加
- Few-shot 版で再評価:精度向上とコスト増のトレードオフを確認
- 継続運用判断:Few-shot で十分か、Fine-tuning / RAG / 蒸留に移行すべきかを数値で判断
このサイクルは、社内AI推進担当のPoC設計や、AIエンジニアのキャリアにおける基本スキルです。
Zero-shot / Few-shot を学ぶためのリソース
- Prompt Engineering Guide(日本語/英語/中国語版あり)
- Microsoft Learn「Zero-shot and few-shot learning」(.NET向け)
- Vellum.ai「Zero-Shot vs Few-Shot Prompting Guide」
- DeepLearning.AI「ChatGPT Prompt Engineering for Developers」(Coursera)
学習ロードマップの全体は生成AIスキル習得ロードマップやAI資格マップ2026を参照。
海外ソースと日本の実務の差
Few-shot / Zero-shot の研究は英語圏・中国語圏で盛んで、日本での実装時には以下の差分に注意が必要です。
- 日本語は英語より LLM の事前学習データが少なく、Zero-shot の精度が落ちることがある
- 業界固有用語(法務・医療・建設・製造)では Few-shot の恩恵が大きい
- 個人情報保護法・著作権などの規制上、Few-shot 例示として使える実データが限定される
日本の実務では、英語モデルの研究結果をそのまま適用せず、日本語業務データでの小規模評価を必ず行うことを推奨します。
まとめ:Zero-shot → Few-shot → CoT → Fine-tuning の階段
Zero-shot と Few-shot は、LLM 活用の基本技法であり、段階的に難易度を上げるプロンプト階段の最初の2段です。まず Zero-shot で実装し、定量評価で不足が見えたら Few-shot、それでも足りなければ CoT、最終的には Fine-tuning や RAG・蒸留へ——というプロセスが、コスト・精度・保守性のバランスを取る王道です。
2026年の最新モデル(GPT-4o・Claude 3.5/4・Gemini 1.5/2.5・o1/o3/DeepSeek R1)は Zero-shot 単独でも高い性能を示すため、「最新モデルほど Zero-shot 中心、レガシーモデルほど Few-shot 必須」という傾向も押さえておきましょう。関連技術はCoT・MoE・量子化・蒸留の記事で体系化しています。
Few-shot/Zero-shot深掘り2026|CoT統合・パラダイムシフト・12手法体系・自動最適化・評価・キャリア
基礎編ではFew-shotとZero-shotの基本定義、使い分けの基本、例示数の目安、実例を整理しました。本章では、2026年のパラダイムシフト(強力モデルでのZero-shot CoT優位性)、Chain-of-Thoughtとの統合、12以上のプロンプト手法体系(CoT/ToT/GoT/ReAct/Self-Consistency/Reflexion/Step-Back/Meta-CoT/PAL等)、自動プロンプト最適化、評価ベンチマーク、推論モデル時代の位置付け、キャリア設計までを深掘りします。基礎編が「Few-shot/Zero-shotの基本」なら、本章は「推論モデル時代のプロンプト設計戦略」として位置づけられます。
2026年のパラダイムシフト|Zero-shotがFew-shotを超える条件
2026年の研究では、強力な基盤モデル(Qwen2.5/3、Claude 4.X、GPT-4o/o1/o3/o4、DeepSeek-R1等)ではFew-shot CoTの優位性が揺らぐ論点として議論されます。
従来の仮定(〜2024年頃)
- Few-shot例示は性能向上の王道
- 例示は多いほど良い(一定範囲で)
- 例示の質は推論能力を直接左右
- Chain-of-Thought例示は必須
2026年の新知見(arXiv等で議論される論点)
- 推論特化モデルではZero-shot CoTがFew-shot CoTを上回る場合がある
- Few-shot例示の主機能は「出力フォーマット整形」に変化している議論
- インストラクショナルトリガー(「ステップバイステップで考えて」等)が支配的
- Adaptive prompt selection(状況別選択)が重要
- 詳細はarXiv論文(2506.14641「Revisiting CoT: Zero-shot Can Be Stronger than Few-shot」)や研究コミュニティでご確認
選定の新基準
- モデル世代(推論特化 vs 汎用)
- タスク複雑度(単純分類 vs 多段階推論)
- 出力フォーマット要件(厳密 vs 柔軟)
- ドメイン専門性(一般 vs 専門)
- 計算コスト(トークン消費)
12プロンプト手法体系|CoT派生と周辺技術
2026年時点でプロンプト手法は多様化する論点として議論されます。主要12手法を整理します。
基本層
- Zero-shot: 例示なし、指示のみ
- Few-shot: 2-5例の入出力ペア提示
- Instruction: 指示だけで構造化出力を誘導
推論強化層
- CoT(Chain-of-Thought): 中間推論ステップを明示
- Zero-shot CoT: 「ステップバイステップで考えて」等のトリガー
- Self-Consistency: 複数CoT生成→多数決
- ToT(Tree-of-Thought): 分岐探索で複数推論パスを評価
- GoT(Graph-of-Thought): ループ・自己修正を含むグラフ構造
反復・メタ層
- Reflexion: 自己批判で応答を改善
- Step-Back: 抽象化→具体化の2段構え
- Meta-CoT: 推論戦略自体を推論
- ReAct: Reasoning+Action+Observationループ(ツール連携)
- PAL(Program-Aided Language): コード生成経由で正確性担保
詳細は Prompt Engineering Guide(https://www.promptingguide.ai/)・arXiv論文・Meta Intelligence・Harmonic Society・Qiita・Zenn 等の解説でご確認ください。
自動プロンプト最適化|GAN-CoT/Select-Prompt等の研究トレンド
2026年は手動チューニングから自動最適化への移行が議論される論点です。
代表的アプローチ
- GAN-CoT: 生成adversarialでCoTテンプレートを反復改善(Wang et al., 2026)
- Select-Prompt: 複数候補生成→正解推論チェーン選択(Che et al., 2026)
- Instance-adaptive Zero-shot CoT: 入力ごとに最適トリガー選定
- Hierarchical CoT: 階層的推論でトークン効率化
- APE(Automatic Prompt Engineer)系の自動探索
- DSPy(Stanford): プロンプトを関数として扱い自動最適化
自動最適化の論点
- 最適化の計算コスト vs 性能向上のトレードオフ
- 汎化性(最適化プロンプトの他タスク流用)
- モデル更新時の再最適化コスト
- 説明可能性の低下懸念
評価ベンチマーク|プロンプト効果の定量測定
プロンプト手法の評価は多層的論点として議論されます。
主要ベンチマーク
- GSM8K(小学校算数)
- MATH(数学競技レベル)
- BBH(Big-Bench Hard)
- ARC-Challenge(推論)
- HellaSwag(常識推論)
- HumanEval/MBPP(コード)
- MMLU-Pro(多領域知識)
- AGIEval・GPQA(博士レベル推論)
- JP-Eval・JGLUE(日本語)
評価観点
- 正答率(Accuracy)
- トークン効率(推論コスト)
- レイテンシ(応答時間)
- 再現性(温度・seed依存)
- ロバストネス(敵対的プロンプト耐性)
- 多言語汎化
- フォーマット遵守率
推論モデル時代の位置付け|o1/o3/R1系とFew-shotの関係
推論時スケーリング(Inference-time scaling)採用モデルではFew-shot/Zero-shotの意義が再定義される論点として議論されます。
- o1/o3/o4系(OpenAI): 内部推論CoT自動生成、Few-shot例示を最小化する傾向
- DeepSeek-R1/R1-V: GRPO+Verifiable Rewardで推論自己獲得
- Claude 4.X系(Anthropic): Extended Thinking モード、明示的CoTトリガー不要な場合
- Qwen3: Thinking Budget制御、ユーザー側で推論深度調整
- Gemini 2.0/2.5/3.0 Thinking系: ネイティブ思考プロセス
- 推論モデル時代にFew-shotは「フォーマット整形」「ドメインバイアス注入」の役割へ
- 詳細は各社公式ドキュメント・Model Card・API仕様書でご確認
プロンプト設計の実践論点|ビジネス利用での注意
企業導入では技術論点+運用論点の両輪が議論されます。
プロダクト実装
- プロンプトバージョニング(Git・PromptLayer)
- A/Bテスト(複数プロンプト比較)
- ユーザーフィードバック収集
- コンテキスト窓管理
- Prompt Injection対策
- 出力バリデーション(Guardrails/Pydantic)
コスト管理
- トークン上限設定
- キャッシング(Anthropic Prompt Caching等)
- モデル階層化(簡単→小型、複雑→大型)
- バッチ処理活用
- セマンティックキャッシュ
ガバナンス
- 機密情報のプロンプト混入防止
- 個人情報保護法・GDPR対応
- AI事業者ガイドライン遵守
- 出力の監査ログ
- Red Team評価
キャリア設計|プロンプトエンジニアとAIエンジニアの境界
2026年時点でプロンプトエンジニア単独職は再編される論点として議論されます。
関連ロール
- LLMアプリケーション開発者(プロンプト設計を含む)
- AIエンジニア(モデル選定・FT・プロンプト)
- プロダクトマネージャー(AI PM)
- Evaluation Engineer(評価ハーネス)
- Conversational Designer(UX+プロンプト)
- Red Team/Safety Engineer
- Alignment Researcher(後学習)
必要スキル
- 各手法の長短・適用条件の理解
- 評価ハーネス構築
- DSPy等の自動最適化フレームワーク
- Python・LLM API・LangChain/LangGraph
- ドメイン理解(法務・医療・金融等)
- 論文追随(arXiv・NeurIPS・ACL)
- 英語読解と国際コミュニティ参加
失敗5パターン|プロンプト設計で陥る典型
- モデル世代無視: 古い情報の「Few-shot多めが良い」を推論特化モデルに適用し非効率
- 評価なきプロンプト変更: 定量評価せず主観でプロンプト改変、本番劣化に気付かない
- トークン浪費: 冗長なFew-shot例示でコスト増、同じ品質をZero-shot CoTで実現可能なケース
- Prompt Injection軽視: ユーザー入力の直接連結で指示上書きされるセキュリティ失敗
- 自動化万能視: DSPy等の自動最適化を導入すれば全て解決と誤認、ドメイン理解なきプロンプトはコストだけ増える
情報源3層構造|論文・ガイド・実装コミュニティ
- 1層: 論文・原典: arXiv(Wei et al. 2022 CoT、Kojima et al. 2205.11916 Zero-shot Reasoners、2506.14641 Revisiting CoT、GAN-CoT/Select-Prompt 2026等)、NeurIPS/ACL/ICML/EMNLP採択論文、OpenReview
- 2層: ガイド・技術メディア: Prompt Engineering Guide(promptingguide.ai)、Meta Intelligence、Harmonic Society、TechGrowUp、新時代のトビラ、nexaflow、k2view、mem0、Zero To Mastery、Qiita、Zenn、note、53AI中文、知乎、segmentfault、cnblogs
- 3層: 実装・コミュニティ: OpenAI/Anthropic/Google/DeepSeek/Qwen公式ドキュメント、DSPy(Stanford)、LangChain/LangGraph、LlamaIndex、Hugging Face、GitHub OSS、Kaggle、LMSYS Arena、Discord、自社A/Bテスト結果、Red Team演習
基礎編の「Few-shot/Zero-shotの基本」という視座に加え、本章では2026年パラダイムシフト(推論モデルでのZero-shot CoT優位論点)、12手法体系、自動プロンプト最適化、評価ベンチマーク、推論モデル時代の位置付け、ビジネス実装論点、キャリア設計、失敗5パターン、情報源3層を通じて、「推論モデル時代のプロンプト設計戦略」を提示しました。海外論文・事例は公開時点での技術比較であり、日本市場での採用・運用は各組織のAI事業者ガイドライン・個人情報保護法・業界規制(金融・医療・法務等)と整合させて判断することが議論される論点です。
