出版社内容情報
文字・単語・文・文書からなる離散データをベイズ統計モデルでいかに学習するか。さまざまなテキストの統計的なモデル化の数理について一から説明し、ブラックボックスに頼らずとも自分の手で統計的分析を駆使できるようになることを目指す。分野を問わず自然言語処理の必要性が増加の一途をたどるなか、読者を基礎から導く好適書。
【目次】
はじめに
本書の記法
1 テキストと言語のモデル化
1.1 言語とテキストの特徴
1.2 テキストの階層構造
1.3 教師あり学習と教師なし学習
1.4 統計的な方法とヒューリスティックな方法
1.5 本書の概要と読み方
1.6 本書の例と実装について
1章の文献案内
2 文字の統計モデル
2.1 文字の頻度と出現確率
2.2 文字の同時確率
2.3 同時確率の周辺化
2.4 文字の条件つき確率
2.4.1 確率の連鎖則
2.4.2 ベイズの定理
2.5 文字nグラムモデル
2.5.1 文字列の確率的生成
2.5.2 ゼロ頻度問題
2.6 統計モデルの学習と評価
2.6.1 学習データとテストデータ
2.6.2 テキストの確率の計算
2.6.3 情報理論の基礎
2.6.4 統計モデルと汎化性能
2章の演習問題
2章の文献案内
3 単語の統計モデル
3.1 文字から単語へ
3.2 単語の統計と羃乗則
3.2.1 Heapsの法則
3.2.2 Zipfの法則
3.3 単語の統計的フレーズ化
3.4 単語nグラム言語モデル
3.4.1 ディリクレ分布
3.4.2 ディリクレ分布と多項分布
3.4.3 ハイパーパラメータαの推定
3.4.4 階層ディリクレ言語モデル
3.4.5 Kneser-Ney言語モデル
3.5 単語ベクトルとその原理
3.5.1 ニューラルnグラム言語モデル
3.5.2 Word2Veによる単語ベクトル
3.5.3 単語ベクトルの学習
3.5.4 Word2Vecと行列分解
3.5.5 GloVeと意味方向の数理
3.5.6 単語ベクトルの分布とノルム
3章の演習問題
3章の文献案内
4 文の統計モデル
4.1 テキストの文分割
4.2 文ベクトルと意味的ランダムウォーク
4.2.1 RAND-walkモデル
4.2.2 文ベクトルの計算
4.3 構文解析と係り受け解析
4.4 隠れマルコフモデル(HMM)
4.4.1 HMMの状態推定
4.4.2 HMMのパラメータ推定
4.4.3 周辺化Gibbsサンプリング
4.4.4 HMMによる品詞の教師なし学習
4章の演習問題
4章の文献案内
5 文書の統計モデル
5.1 ナイーブベイズ法と単語集合表現
5.1.1 文書の分類確率
5.2 ユニグラム混合モデル(UM)
5.2.1 トピックの解釈