出版社内容情報
「図表を読めるAI」を作る
近年、テキストだけでなく、図や表やグラフといった画像を含む資料からも情報を検索・活用できる「マルチモーダルRAG(Retrieval-Augmented Generation)」の重要性が高まっています。従来のテキストベースRAGが扱える情報はテキストデータに限定されており、実務現場で扱う文書──技術報告書、研究論文、プレゼン資料──のように、図表を多く含むデータには十分対応できませんでした。本書は、この課題を踏まえ、実務文書にも対応できるマルチモーダルRAGについて体系的に解説します。
本書では、自分の手でマルチモーダルRAGを構築できるようになることを目指します。全体を通して、手を動かしながら理解できるよう、再現可能なコード例を多数提示しています。
<本書の構成>
・第1章:基本的な構成のRAG(データベース・検索器・生成器)をPythonで実装し、RAGの仕組みを理解します。
・第2章:画像をテキストに変換する方式と、画像とテキストを同一のベクトル空間に埋め込む方式という、2種類のマルチモーダルRAG の実装方法を紹介します。
・第3章:Embed-4やCLIP-RAG、反復型RAGといった最新手法を概観し、マルチモーダル知覚統合の潮流を整理します。
・第4章:特定領域の画像(医療画像、技術図面など)に特化したマルチモーダル RAG の構築を目指し、projectorやLLM、デュアルエンコーダのファインチューニング方法を実例とともに解説します。
【目次】
はじめに
目次
第1章 テキストベースのRAG
第2章 マルチモーダルRAG
第3章 マルチモーダルRAGの実装手法
第4章 特化型マルチモーダルRAG
おわりに
参考文献
索引



