手法	例え	学習のさせ方
事前学習	義務教育	言葉、計算、一般常識を学ぶ。まだ料理はできない
ファインチューニング	料理学校	「このレシピ通りに作りなさい」と教わる → 基礎的な調理スキルと知識を身につける
強化学習	実地研修	客に出した料理に対して「美味しい」「塩辛い」と評価される → 客が喜ぶ味付けや、好まれる接客を身につける

比較項目	ファインチューニング	強化学習
主な目的	指示従順性の獲得: 特定の形式や知識を教え込む	人間との調和: 安全性、有用性、ニュアンスを調整する
データ形式	「入力」と「正解」のペア例：`Q:首都は?` `A:東京`	回答の「比較」や「採点」例：`回答A > 回答B`、`GOOD/BAD`など
学習の仕組み	次単語の予測 (Token Level) 正解データと一言一句合わせようとする	報酬スコアの最大化 (Sentence Level) 文章全体としての良し悪しを評価
得意なこと	・新しい知識の注入・JSONなど特殊形式の出力・口調（キャラ付け）の固定	・嘘（ハルシネーション）の抑制・有害な回答の回避・「もっと丁寧に」など曖昧な指示への対応

AI Talks #4 - LLMをコアに持つプロダクトのデータ活用とエージェント設計

DSPyでプロンプト自動最適化

文章から趣味を抽出するtoy-problemで試してみた
モデル: gemma3、初期プロンプト: "趣味は？"（あえてテキトーなものに）
データセット (train: 56件, validation: 14件, test: 28件):

  {"sentence": "映画鑑賞が趣味で、毎週1本は必ず観ています", "hobby": "映画鑑賞"},
  {"sentence": "休日に散歩して鳥の写真を撮ります", "hobby": "バードウォッチング"}

【結果】 accuracy: 78.6% ← 手動チューニングだとなかなかここまでいけない

optimized prompt:

Given a sentence describing a person’s activity, 
identify and state the hobby being practiced. 
Output only the hobby.

selected few-shot examples:

{"sentence": "週末は公園でスケッチをして過ごします", "hobby": "スケッチ"},
{"sentence": "陶芸教室に通って、自分で器を作っています", "hobby": "陶芸"},
{"sentence": "旅行が好きで、日本全国を巡っています", "hobby": "旅行"}

観点	ワークフロー型	エージェント
動作原理	事前定義されたフローに従う	自律的な推論と行動のループ
応答速度	速い（LLM呼び出し回数が予測可能）	遅い（より多くのLLM呼び出し）
柔軟性	低〜中（想定外のタスクに弱い）	高（新しいタスクにも適応）
制御性	高（動作が予測しやすい）	低〜中（予期しない動作の可能性）
実装工数	中〜高（フロー設計とコーディング）	低〜中（ツールとプロンプト設計のみ）

LLMをコアに持つプロダクトのデータ活用とエージェント設計

Tomoki Yoshida (birder)️

自己紹介

吉田 知貴（birder）

社内の3時間の勉強会から厳選し更に踏み込んだ内容を話します

※重複あり

フィードバックループを持ち成長するプロダクト

作りたいですよね？

LLM時代のデータ活用

プロダクト全体の最適化

ユーザー個人への最適化（パーソナライズ）

モデル学習の種類とイメージ

ファインチューニングと強化学習の比較

ファインチューニング

強化学習（スキップするかも）

プロンプト自動最適化

やる意義

DSPyでプロンプト自動最適化

プロンプト自動最適化の課題

参考: Geminiのファインチューニングは簡単にできる

本当に重要なのはここからです！！

パーソナライズへ

コンテキストエンジニアリングの必要性

LLMの限界

コンテキストエンジニアリング

プロダクト作りで気にするところ

RAG（Retrieval-Augmented Generation）

RAGの構成要素: 1. クエリ拡張

簡単な文脈補完

言い換えや解答予測

RAGの構成要素: 2. ハイブリッド検索

Embedding: 文字列からベクトル空間へ

ベクトル検索: 大量のレコードから近い表現を高速に検索できる（近似最近傍探索）

RAGの構成要素: 3. リランキング 4. グラウンディング

RAGの前処理: ドキュメント保存時の前処理

エージェントについて知ろう

世の中のすごいプロダクトの中身を推測できるようになる

ReAct（Reasoning + Acting） Agent

Reflexion（内省）

Adaptive Planning

LangChainのAgentの動きを見てみよう

LangSmithでAgentをトレース

LLM設計パターン

ワークフローかエージェントか

Deep Researchの設計（ワークフロー型）

Deep Researchの設計（エージェント版）

ワークフロー型 vs エージェント

マルチエージェント設計パターン

まとめ

LLMをコアに持つプロダクトの
データ活用とエージェント設計

吉田知貴（birder）