入門マルチモーダルＲＡＧ―図表を読み解くＡＩアプリケーションの実装

個数：

電子版価格
¥2,860

電子版あり

入門マルチモーダルＲＡＧ―図表を読み解くＡＩアプリケーションの実装

新納浩幸【著】
価格 ¥2,860（本体¥2,600）
オーム社（2026/06発売）
ポイント 26pt

提携先に14冊在庫がございます。（2026年07月28日 23時32分現在）
通常、5～7日程度で出荷されます。
※納期遅延や、在庫切れで解約させていただく場合もございます。
※1回のご注文は10冊までとなります
出荷予定日とご注意事項
※上記を必ずご確認ください

【出荷予定日】
通常、5～7日程度で出荷されます。

【ご注意事項】 ※必ずお読みください
◆在庫数は刻々と変動しており、ご注文手続き中に減ることもございます。
◆在庫数以上の数量をご注文の場合には、超過した分はお取り寄せとなり日数がかかります。入手できないこともございます。
◆事情により出荷が遅れる場合がございます。
◆お届け日のご指定は承っておりません。
◆「帯」はお付けできない場合がございます。
◆画像の表紙や帯等は実物とは異なる場合があります。
◆特に表記のない限り特典はありません。
◆別冊解答などの付属品はお付けできない場合がございます。
●3Dセキュア導入とクレジットカードによるお支払いについて
●店舗受取サービス（送料無料）もご利用いただけます。
ご注文ステップ「お届け先情報設定」にてお受け取り店をご指定ください。尚、受取店舗限定の特典はお付けできません。詳細はこちら

サイズ A5判／ページ数 176p／高さ 21cm
商品コード 9784274234934
NDC分類 007.1
Cコード C3055

出版社内容情報

「図表を読めるAI」を作る
近年、テキストだけでなく、図や表やグラフといった画像を含む資料からも情報を検索・活用できる「マルチモーダルRAG（Retrieval-Augmented Generation）」の重要性が高まっています。従来のテキストベースRAGが扱える情報はテキストデータに限定されており、実務現場で扱う文書──技術報告書、研究論文、プレゼン資料──のように、図表を多く含むデータには十分対応できませんでした。本書は、この課題を踏まえ、実務文書にも対応できるマルチモーダルRAGについて体系的に解説します。
本書では、自分の手でマルチモーダルRAGを構築できるようになることを目指します。全体を通して、手を動かしながら理解できるよう、再現可能なコード例を多数提示しています。

<本書の構成>
・第1章：基本的な構成のRAG（データベース・検索器・生成器）をPythonで実装し、RAGの仕組みを理解します。
・第2章：画像をテキストに変換する方式と、画像とテキストを同一のベクトル空間に埋め込む方式という、2種類のマルチモーダルRAG の実装方法を紹介します。
・第3章：Embed-4やCLIP-RAG、反復型RAGといった最新手法を概観し、マルチモーダル知覚統合の潮流を整理します。
・第4章：特定領域の画像（医療画像、技術図面など）に特化したマルチモーダル RAG の構築を目指し、projectorやLLM、デュアルエンコーダのファインチューニング方法を実例とともに解説します。

【目次】

はじめに
目次

第１章テキストベースのRAG
第２章マルチモーダルRAG
第３章マルチモーダルRAGの実装手法
第４章特化型マルチモーダルRAG

おわりに
参考文献
索引

内容説明

複雑なグラフ、レイアウトの崩れたＰＤＦ、専門的な画像データ…社内に散らばる非構造化データを検索・活用するための実装アプローチ。テキストだけのＲＡＧから、画像も読み解く「マルチモーダルＲＡＧ」へ。検索精度を飛躍させるＣｏｌＰａｌｉ、自律的に動くＡｇｅｎｔｉｃ　ＲＡＧ（ＬａｎｇＧｒａｐｈ）。最新ツールを組み合わせて、マルチモーダルＲＡＧの最小構成を自作する！

１　テキストベースのＲＡＧ
２　Ｒｅｓｐｏｎｓｅｓ　ＡＰＩのｆｉｌｅ　ｓｅａｒｃｈによるＲＡＧ
３　標準的なマルチモーダルＲＡＧ
４　ＣｏｌＰａｌｉを利用したマルチモーダルＲＡＧ
５　エージェントによる自律制御を組み込んだＭＭＡ‐ＲＡＧ
６　ＶＱＡを中核としたマルチモーダルＲＡＧ