LMMとは?LLMとの違いは?LMM(Large Multimodal Model) は、テキストだけでなく画像・音声・動画・センサーデータなど複数モダリティを同時に処理できる 10 億〜100 億パラメータ級の基盤モデルです。GPT-4V、Gemini 1.5 Pro、Claude 3 Sonnet‐Vision、Qwen-VL Max、Llava-2 13B などが代表例で、2025 年5 月時点で商用公開された LMM は 24 種類を超えました。LLM(Large Language Model)が単一モダリティ(テキスト)を対象に自己回帰的確率分布を学習するのに対し、LMM はマルチストリームエンコーダ(Vision Transformer G/14、AudioMAE、TimeSFormer など)共有潜在空間への クロスアテンション統一デコーダ(Transformer Decoder か Mixture-of-Experts)を組み合わせ、異種データを単一トークン列として扱います。たとえば GPT-4V は 448×448 px 画像を 16×16 patch に分割し、各パッチを 8 ,192 -dim 浮動小数点に埋め込み、テキストトークンと合流させます。その結果、画像中の JavaScript コードを読み取り「バグは 37 行目の useEffect」と指摘するといったクロスモーダル推論が可能になります。LMMを用いた事例業界LMM導入例KPIインパクトe-commerceAmazon StyleSnap LMMが類似商品検索でCTR +18.4 %、平均注文額 1.46 倍(2024Q4)医療Siemens CT-Assist GPT-4V版が胸部CTレポート作成時間を 25 分→7 分、専門医一致率 87.3 %製造Foxconn Visual-Audio LMMが異音×映像検査で不良検知F1 +9.1 pt、ライン停止コスト -12 M USD/年自動運転Tesla Dojo-2 LMM Stackが夜間 pedestrian recall +7 pt、FSD disengagement/km -42 %エンタメNetflix Helios-LMMがトレイラー自動切り出しを 17 時間→ 14 分、A/Bテストで視聴開始率 +6.8 %LMMのメリット・デメリットを比較メリット統合推論:テキスト・画像・音声を単一プロンプトで処理。社内 API の統合数を –40 %。ゼロショット性能:未知ドメイン画像説明 BLEU +15 pt、音声QA WER -12 %。データ効率:マルチモーダル対比学習によりラベル付きデータを –70 % 削減。デメリット計算コスト:解像度 448²×秒数 30 fps でトークン数が LLM の 1.8 倍、VRAM 消費 2.3 倍。ハルシネーション+スチューシネーション:視覚要素を誤認し、誤った数値を生成するリスク。データガバナンス:画像や音声には GDPR/CCPA/医療機密が含まれやすく、匿名化が必須。LMM開発方法や費用は?1. データパイプライン源泉規模前処理LAION-5B画像5.8 B枚CLIPスコア0.28以上を抽出(2.1 B枚)YouTube-800M音声43 K時間OpenAI Whisper-Large V3で書き起こしWikiPara動画120 MクリップOpenCVでキーフレーム抽出、fps 15合計 2.3 PB。ストレージコスト(S3 Glacier Deep Archive):$12 k/月。2. 事前学習モデル規模:14 Bパラメータ、画像エンコーダ ViT-H/14、音声エンコーダ AudioMAE-LargeGPU:NVIDIA H100 80 GB × 1,024枚計算量:3.7 PFLOPs×day × 32日 ≒ 1.18 EFLOPsクラウド費:Spot $2.2/h → $1.73 M3. 微調整タスクデータ量GPU期間コスト医療CTレポート220 kペアA100×848 h$2 kコールセンター音声QA1.2 MセグL4×1636 h$1 k商品検索画像12 M枚H100×6460 h$40 k4. 推論最適化ONNX + TensorRT-8.6、FP8量子化でレイテンシ –44 %。Mixture-of-Experts活性ノード8/64でスループット +3.6×。Edge TPU版 Tiny-LMM-2B は 224²画像+64トークンを 87 msで処理。5. 総費用レンジ規模期間CAPEX/OPEX例PoC(1 B)2週$80 kViT-B/32 + LLama-2-7Bプロダクション(7 B)8週$1.2 MGPT-4V-Mini 同等エンタープライズ(14 B)12週$3.5 MGemini 1.5 Pro Vision規模LMMについてMojiにご相談ください!Moji は LMM × ビジネスドリブン を掲げ、戦略立案からMLOpsまでを一気通貫で支援します。初期 72 時間 で ROI シミュレーション&PoCロードマップを提示データ匿名化パイプラインと独自 Diffusion-Augment 技術でラベルコスト -63 %Spot H100+LoRA 圧縮で学習費用 -58 %Vertex AI+Kubeflow による Auto-Scaling。月次SLA 99.95 %専門家 25名(Google Brain, Meta FAIR, 医療MBBS など)がバックアップ無料診断レポートを最短 48 時間でご提供します。LMMで競合に先んじたい企業様は、ぜひ Moji までお気軽にご相談ください。