生成AIが「期待した品質で、期待したコストで、安全に」動いているかを確認する営みがAIの評価です。ChatGPTやClaude 3.5、GPT-4o、Llama 3.1、DeepSeek-V2のような基盤モデルだけでなく、RAG(検索拡張)やワークフロー、監査ログ、UIコピーまでを含めて、品質・安全性・コスト・レイテンシを継続測定します。単発のPoC判定で止めず、継続的評価(Continuous Evaluation)を仕組み化することが、運用の安定とROI最大化の近道です。本稿では、評価指標と方法、実例、そして費用感(万円表記)まで具体的に解説します。AIの評価とは?評価指標や評価方法は?① 生成品質(NLG)の客観評価文章生成の自動指標として、BLEU / ROUGE-L / METEORなどのn-gram系、意味類似度を見るBERTScore、モデルが審査員になるG-Eval / GPTScoreが代表的です。対話系ではMT-Benchや人間のペアワイズ比較がよく使われます。FAQや社内ナレッジ回答のような用途では、初期の目標として正答率80%以上、回答完全性(Coverage)90%、禁則違反率0.5%未満などのしきい値を置き、スプリントごとに更新していきます。② QA / RAGの忠実性と探索性能RAGでは、Precision@k / Recall@k / MRR / nDCG@kで検索・再ランキングの性能を可視化し、生成側は引用率や忠実性(Hallucinationの少なさ)を評価します。実務目安として、Recall@5 ≥ 0.85引用付き回答率 ≥ 0.95幻覚率 ≤ 2%を置き、RetrieverはBM25 + denseのハイブリッド、クロスエンコーダでリランクしてnDCG@10を0.05以上改善する、といった運用が堅実です。③ 安全性・コンプライアンス有害表現/偏見/PII露出の抑止テストを自動化します。ASR(Acceptable Safety Rate)99%以上、PII検出率99.5%以上、誤ブロック率2%未満などをKPI化。日本企業では個人情報保護法(APPI)やISO/IEC 27001の証跡要件に合わせ、監査ログの保全・アクセス分離・鍵管理(KMS)を評価計画に織り込みます。④ 多言語・ドメイン適合日本語性能はJGLUE / JNLI / JCommonSenseQA、プログラム生成はHumanEval / MBPP、知識整合はTruthfulQA、汎用学習はMMLU / HellaSwagなどを採用。医療・金融・製造などのドメイン固有試験を50〜200問規模で作成し、日次または週次回帰に組み込みます。⑤ 人手評価(Human Preference)自動指標で拾い切れない読みやすさ・用語統一・ブランドトーンは、二重盲検とCohen’s κ ≥ 0.7を目安に人が判断します。プロダクトでは解決率(FRR)、CSAT、CVR、継続率を本番KPIとして紐づけ、A/Bで非劣性/優越性を検定します。⑥ コストと応答時間(SLO)P50/P95レイテンシと推論単価を同時にモニタリング。たとえばP95 3.0秒以内、1セッション当たり約0.58円などのSLOを置き、キャッシュ・段階型推論・サマリ前置で最適化します。1,000トークンあたりの推論費は0.1〜2.0円程度(モデルやコンテキスト長で大きく変動)。⑦ 継続的評価の自動化GitHub Actions / Airflow等で評価パイプラインをCI化し、Langfuse / LangSmith / Helicone / Promptfooで品質・安全・コストのトレースをダッシュボード化。回帰劣化はZスコア(3σ逸脱など)で検知、モデル更新やプロンプト変更の影響を追跡します。AIの評価を用いた事例事例A:大手小売のFAQ/RAG高度化対象データ:商品仕様・返品規定・POS連動の社内文書(約3万ドキュメント、数GB)検索パイプライン:BM25 + E5-Large(dense)のハイブリッド → ColBERTでリランク → GPT-4oで最終生成KPI推移:正答率 85% → 92%(3か月)、引用付き回答率 97%、幻覚率 2% → 0.6%効果:問い合わせ対応時間 年間約4,800時間削減、CSAT +7.4ポイント、コンタクト削減 28%事例B:金融コールセンターの安全性強化PII検出:日本語正規表現 + NER(GiNZA) + ルールベースの三層結果:ASR 99.4%、誤ブロック率 1.1%まで低減監査:アクセスログ90日保全、RLS + KMSで部署別に鍵分離、評価証跡(テストID/バージョン/合否)を提出して外部監査に合格事例C:B2B SaaSの内蔵アシスタント本番KPI:TTV(Time to Value)14日 → 5日、オンボーディング工数42%削減評価指標:MT-Bench 7.8 → 8.5、日本語長文要約でBERTScore +0.03、コード生成HumanEval Pass@1 +6ポイントコスト:1セッション当たり約0.58円、P95 2.4秒、Redisキャッシュヒット率46%AIの評価 開発方法や費用は?フェーズ1:要件定義(1〜3週間)内容:ユースケース定義、KPIツリー策定(正答率・幻覚率・ASR・P95・推論単価)、評価仮説とテスト設計規模感:評価観点30〜80項目、テストケース200〜1,000件費用目安:80〜250万円フェーズ2:データ設計・収集(2〜6週間)ゴール:ゴールデンセット(例:QA 500件、禁則80シナリオ、PII 60パターン)体制:アノテータ2〜4名で二重ラベリング、Cohen’s κ ≥ 0.7費用目安:150〜500万円(専門アノテーション単価は1件あたり150〜600円)フェーズ3:自動評価パイプライン構築(3〜8週間)実装:Retriever評価(nDCG/MRR)、生成評価(BERTScore/G-Eval)、安全性テストバッテリ、レポーティング基盤:Langfuse / Promptfoo / LangSmith + Airflow / GitHub Actions + Supabase/Postgres / S3費用目安:200〜600万円フェーズ4:運用・回帰・可視化(継続)運用:週次または隔週で回帰テスト、モデル/プロンプト更新のAB、逸脱検知とエラー分析月次ランニング例:評価用推論費:5〜30万円 / 月(3〜30万問/月のバッチを想定)監視/ログ:2〜15万円 / 月推論単価の参考:1,000トークンあたり0.1〜2.0円最適化の型:プロンプト分割・前段要約・RAGキャッシュ・埋め込み再利用・モデル切替(Claude 3.5 / GPT-4o / Llama 3.1-70B等)で30〜70%のコスト削減事例内製 / 外部支援 / ハイブリッド内製:評価観点の内面化が進む一方、初期は2〜4名月の確保が必要。外部支援(例:Moji):骨格を約3か月で立ち上げ、運用・移管まで伴走。ハイブリッド:コアは外部で速立て、社内はテスト作成・運用に集中。リードタイム約半減の実績。見積り例(ミドル規模:RAG + 安全性 + ダッシュボード)要件定義・設計:150万円データ整備(約800ケース):200万円パイプライン実装(CI/CD・監視含む):350万円初期評価/改善サイクル(6週間):120万円合計:820万円(税別)月次運用:25万円〜(評価バッチ・監視・改善ミーティングを含む構成の一例)AIの評価についてMojiにご相談ください!Mojiは生成AI評価 / ガードレール / ダッシュボードを一気通貫で支援します。評価戦略:正答率・幻覚率・ASR・P95・推論単価を結んだKPIツリーを策定データ設計:日本語に強いゴールデンセットと禁則・PIIテストを内製可能な形で提供技術基盤:Langfuse / Promptfoo / LangSmithとSupabase(RLS + KMS)で監査対応まで設計改善運用:週次回帰とABテスト、Optuna等でRetriever/プロンプトを継続改善(nDCG@10 +0.05を定常目標)セキュリティ:ISO/IEC 27001を意識したアクセス分離・鍵管理・評価証跡の体系化まずは30分の無料相談から。既存ログ(匿名化で可)とKPIの現状を確認し、2週間以内にスコープ・体制・概算をまとめた評価ロードマップをご提案します。AIの評価を「やってみる」から「勝てる運用」へ。小さく賢く始めて、大きく改善。Mojiが伴走します