出版社内容情報
ベクトル検索は従来の重要技術キーワード検索を補完する技術であり、かつWeb検索など、検索そのもののサービスにはもちろん、Eコマースなど各種サービスの検索機能にも採用されつつある注目度の高い技術です。従来のキーワード検索は、ユーザが入力したキーワードを含むドキュメントを抽出し、キーワードの出現頻度にもとづいてドキュメントをソート(ランキング)するというものでした。キーワード検索が表面的な情報を扱っていたのに対して、ベクトル検索はキーワードやドキュメントの「意味」を扱います。ベクトルの類似度によってキーワードとドキュメントそれぞれの意味の類似度を測れるよう、これらのテキストをベクトル化する技術です。
このように、ベクトル検索は抽象的な意味を扱える点で優れた技術ですが、一方でしくみがわかりにくいところがあります。また、新しい技術でもあるため、日本語の専門書や資料が少ない状況です。
本書はベクトル検索による検索エンジンの高速化を解説します。対象読者は検索サービスまたは検索機能を扱うエンジニア、手法の実装と評価が必要な研究者、およびそれらを志望する学生で、実用的なベクトル検索が実装できるようになることを目指します。
前半でデータの準備から検索結果の評価までを一通り解説し、後半では各ステップの高度化・高速化について解説します。また、付録として画像のベクトル化と検索についても解説します。
【目次】
第1章 データの準備
1.1 ベクトル検索の流れ
1.2 最重要のステップ:ランキング
1.3 ランキングの機械学習
1.3.1 ベクトル検索のランキングモデル
1.3.2 キーワード検索のランキングモデル
1.3.3 両ランキングモデルの差分
1.4 ランク学習データセットの現状
1.4.1 特徴量ベクトルのデータセット
1.4.2 ドキュメントやクエリ自体のデータセット
1.5 Shopping Queries Datasetの紹介
1.5.1 製品のテーブルproducts
1.5.2 その他の情報のテーブル
1.6 前処理
1.6.1 事前知識
1.6.2 サンプルコードの入手
1.6.3 環境構築
1.6.4 前処理のサンプルコードの確認
1.6.5 read_jp_dataの解説
1.6.6 動作確認の解説
1.6.7 実行例
1.6.8 コードの実行
1.6.9 トラブルシューティング
第2章 基本的なベクトル化
2.1 ベクトル化モデルの選択
2.1.1 訓練データセットとその言語
2.1.2 推論速度
2.1.3 計算式
2.1.4 ベクトルの正規化と計算式間の関係
2.2 ベクトル化モデルの例
2.2.1 例のモデルの特徴
2.2.2 例のモデルの全体像
2.3 Sentence TransformersのMiniLM-L6の実行
2.3.1 例のモデルの読み込みとデフォルトの引数の定義
2.3.2 ベクトル化のコアな処理vectorize
2.3.3 ベクトル化したデータの保存と今後の読み込み
2.3.4 実行例
第3章 専用エンジンの紹介
3.1 ベクトルの最近傍探索
3.1.1 コサイン類似度の計算の定義
3.1.2 ランキング
3.1.3 実行例
3.1.4 ベクトルの最近傍探索
3.2 ANN検索の基本
3.2.1 スカラ量子化
3.2.2 次元削減
3.2.3 ハッシュベース
3.2.4 クラスタベース
3.2.5 グラフベース
3.3 ベクトル検索エンジンの選択
3.3.1 ANN-Benchmarks
3.3.2 Faiss
3.3.3 NGT・Vald
3.3.4 Lucene・Elasticsearch・OpenSearch・Solr
3.4 専用エンジンの例:Faiss
3.4.1 Faissインデックスの作成
3.4.2 実行例
3.4.3 トラブルシ
内容説明
ランキング、BERT、ANN検索、Faiss、OpenSearch、検索結果の評価、既存サービスへの統合、画像検索。意味の類似性にもとづいた高度な検索を可能にする!テキスト、画像など多様なデータに対応!
目次
第1章 データの準備
第2章 基本的なベクトル化
第3章 専用エンジンの紹介
第4章 検索結果の評価
第5章 高度なベクトル化
第6章 高速なベクトル化
第7章 ベクトルの圧縮と高速な計算
第8章 次元削減やハッシュによる高速化
第9章 クラスタによる高速化
第10章 グラフによる高速化
第11章 既存のモデルへのベクトル検索の統合
第12章 ベクトル検索への既存の特徴量の統合
付録A 画像のベクトル検索
著者等紹介
真鍋知博[マナベトモヒロ]
LINEヤフー株式会社。京都大学大学院情報学研究科社会情報学専攻情報図書館学分野に配属。情報抽出と情報検索を自身のテーマとする。博士(情報学)。検索エンジンの高速化・高機能化のための研究・開発に一貫して従事している(本データはこの書籍が刊行された当時に掲載されていたものです)
※書籍に掲載されている著者及び編者、訳者、監修者、イラストレーターなどの紹介情報です。




