統計学One Point<br> テキストアナリティクス

個数:
電子版価格
¥2,530
  • 電子版あり

統計学One Point
テキストアナリティクス

  • 提携先に在庫がございます【僅少】
    通常、5~7日程度で出荷されます。
    ※納期遅延や、在庫切れで解約させていただく場合もございます。
    (※複数冊ご注文はお取り寄せとなります)
  • 出荷予定日とご注意事項
    ※上記を必ずご確認ください

    【出荷予定日】
    通常、5~7日程度で出荷されます。

    【ご注意事項】 ※必ずお読みください
    ◆在庫状況は刻々と変化しており、ご注文手続き中やご注文後に在庫切れとなることがございます。
    ◆出荷予定日は確定ではなく、表示よりも出荷が遅れる場合が一部にございます。
    ◆複数冊をご注文の場合には全冊がお取り寄せとなります。お取り寄せの場合の納期や入手可否についてはこちらをご参照ください。
    ◆お届け日のご指定は承っておりません。
    ◆「帯」はお付けできない場合がございます。
    ◆画像の表紙や帯等は実物とは異なる場合があります。
    ◆特に表記のない限り特典はありません。
    ◆別冊解答などの付属品はお付けできない場合がございます。
  • ●3Dセキュア導入とクレジットカードによるお支払いについて
    ●店舗受取サービス(送料無料)もご利用いただけます。
    ご注文ステップ「お届け先情報設定」にてお受け取り店をご指定ください。尚、受取店舗限定の特典はお付けできません。詳細はこちら
  • サイズ A5判/ページ数 224p/高さ 22cm
  • 商品コード 9784320112612
  • NDC分類 007.1
  • Cコード C3341

出版社内容情報

 本書は,テキストの電子化から始め,テキスト分析のための事前処理,目的に合わせた分析項目の集計方法およびそのテキストの分析方法などについて,例を織り込みながら,テキスト分析に関わる統計的データ処理や機械学習的手法について平易に解説している。
 テキストにおける法則と指標,テキストの特徴分析,テキストのクラスター分析,テキストの分類分析,テキスト関連の予測や要因分析に分けて,伝統的な方法から最新の方法まで順を追って解説している。例えば,特徴分析では主成分分析,対応分析などの統計的データ分析法から始め,NMF(非負行列因子分解)分析やトピックモデルなどの機械学習的手法まで,分類分析では線形判別,マハラノビス距離判別分析,ナイーブベイズ判別分析などの伝統的判別分析法からサポートベクターマシン,ランダムフォレスト,深層学習を含むニューラルネットワークなど最新の機械学習方法およびその統合分析まで扱っている。
 分析の方法に関しては,簡潔にその考え方とアルゴリズムを示すことで,読者が全体像をつかむように工夫した。例で用いたデータはネットから入手でき,本書中のスクリプトを実行することに主な手法の分析方法の理解をより深めることができる。

第1章 テキストアナリティクス
1.1 テキストアナリティクスとは
1.2 テキストアナリティクスの諸相
  1.2.1 テキストアナリティクスの由来
  1.2.2 計量文体学
  1.2.3 計量言語学とコーパス言語学
  1.2.4 情報・社会科学
1.3 テキストアナリティクスの手順

第2章 テキストアナリシスのための前処理
2.1 電子化とテキストの収集
2.2 テキストのクリーニングと正規表現
  2.2.1 テキストエディタ
  2.2.2 正規表現
2.3 プログラミング言語
2.4 テキストの処理
  2.4.1 形態素解析
  2.4.2 構文解析
2.5 要素・項目の集計
  2.5.1 n-gram統計モデル
  2.5.2 特徴ベクトル

第3章 テキストデータの視覚化
3.1 棒グラフと折れ線グラフ
3.2 ワードクラウド
3.3 格子グラフ
3.4 ネットワークプロット
  3.4.1 ネットワークの統計量
  3.4.2 コミュニティ分析
3.5 テキストにおけるネットワーク分析

第4章 法則と語句の重みおよび特徴語句抽出
4.1 ジップの法則
4.2 語彙の豊富さ
  4.2.1 延べ語数と異なり語数を用いた指標
  4.2.2 頻度スペクトルを用いた指標
4.3 語句の重み
  4.3.1 ブーリアン重み付け
  4.3.2 頻度重み付け
  4.3.3 TF-IDF重み付け
  4.3.4 エントロピー重み付け
  4.3.5 相互情報量による共起頻度の重み付け
4.4 特徴語句の抽出
  4.4.1 カイ二乗統計量
  4.4.2 外的基準の利用

第5章 テキストの特徴分析
5.1 特徴分析のデータの形式
5.2 特異値分解
5.3 主成分分析
  5.3.1 主成分と寄与率・累積寄与率
  5.3.2 主成分得点
  5.3.3 主成分分析の例
5.4 対応分析
  5.4.1 固有値分解と対応分析
  5.4.2 対応分析の例
5.5 潜在意味解析
5.6 確率潜在意味解析
  5.6.1 pLSAとは
  5.6.2 pLSAの分析例
5.7 トピックモデルLDA
  5.7.1 LDAとは
  5.7.2 LDAの分析例
  5.7.3 トピックモデル
  5.7.4 トピックの数について
5.8 NMF分析
  5.8.1 基本アルゴリズム
  5.8.2 NMF分析の例
5.9 その他の方法

第6章 テキストのクラスター分析
6.1 類似度と非類似度
  6.1.1 量的データの類似度
  6.1.2 名義尺度の類似度
  6.1.3 多値名義尺度
6.2 非類似度と距離
  6.2.1 量的データの距離
  6.2.2 相対頻度データの距離
6.3 階層的クラスタリング
  6.3.1 階層的クラスタリングのプロセス
  6.3.2 階層的クラスタリングの流れ
  6.3.3 階層的クラスタリングの方法
6.4 クラスターのヒートマップ
6.5 非階層的クラスタリング
6.6 クラスターの数の決定方法

第7章 テキストの分類と判別分析
7.1 分類と判別分析
  7.1.1 線形判別分析
  7.1.2 ベイズ判別分析
  7.1.3 ロジスティック判別分析
  7.1.4 k近傍法
7.2 サポートベクターマシン
  7.2.1 サポートベクターマシンの基本定式
  7.2.2 カーネル法
7.3 ツリーモデル
7.4 アンサンブル学習
  7.4.1 ブースティング
  7.4.2 ランダムフォレスト
7.5 ニューラルネットワーク
  7.5.1 ニューラルネットワークとは
  7.5.2 階層ニューラルネットワーク
7.6 モデルと結果の評価
  7.6.1 交差確認法
  7.6.2 分類結果の評価指標
7.7 いくつかの分類器の比較
  7.7.1 スパムメール
  7.7.2 文章の著者の識別
7.8 統合的分析
  7.8.1 統合的分類アルゴリズム
  7.8.2 用いるコーパスとデータセット
  7.8.3 書き手の特徴データ
  7.8.4 用いる分類器
  7.8.5 評価方法
  7.8.6 分類器ごとの判別結果
  7.8.7 統合的判別の結果

第8章 テキストデータによる予測と要因分析
8.1 テキストの経時的分析
8.2 重回帰分析
  8.2.1 重回帰分析の定式
  8.2.2 変数の選択
  8.2.3 執筆時期の推定
8.3 正則化回帰モデル
  8.3.1 ridge回帰モデル
  8.3.2 lasso回帰モデル
  8.3.3 elastic net回帰モデル
  8.3.4 正則化回帰モデルによる執筆時期の推定
8.4 その他の回帰分析
  8.4.1 サポートベクター回帰
  8.4.2 回帰木とランダムフォレスト
  8.4.3 いくつかの回帰分析の結果の比較

参考文献
索  引

金 明哲[キン メイテツ]
著・文・その他

目次

第1章 テキストアナリティクス
第2章 テキストアナリシスのための前処理
第3章 テキストデータの視覚化
第4章 法則と語句の重みおよび特徴語句抽出
第5章 テキストの特徴分析
第6章 テキストのクラスター分析
第7章 テキストの分類と判別分析
第8章 テキストデータによる予測と要因分析

著者等紹介

金明哲[キンメイテツ]
1994年総合研究大学院大学博士後期課程修了。現在、同志社大学文化情報学部、文化情報学研究科教授。博士(学術)。専門:統計科学、データ科学、計量言語学(本データはこの書籍が刊行された当時に掲載されていたものです)
※書籍に掲載されている著者及び編者、訳者、監修者、イラストレーターなどの紹介情報です。

感想・レビュー

※以下の感想・レビューは、株式会社ブックウォーカーの提供する「読書メーター」によるものです。

愛楊

1
2018年。大体は先程の書籍に内容を増加したバージョンのような感じ。logistic model tree やキャンベラ距離、最大情報量相関係数、確率的潜在空間解析など。2024/12/29

hayataka

1
テキストアナリティクスについて、幅広くトピックがカバーされていて、分析する際の参考になります。具体的には、特徴量の作り方、データ可視化、ネットワーク分析、特徴語句の抽出(TFIDF、情報理論的手法、独立性検定など)、教師なし学習(PCA、コレスポンデイング分析、トピックモデルといった特異値分解やクラスタリング)、教師あり学習(分類問題、回帰問題)といった内容が含まれます。全くの初学者には難しいと思いますが、既にデータマイニングやテキストマイニングを勉強したり、実務で使っている方に良い本だと思います。2021/03/08

contradiction29

0
テキストマイニング分会の素材として学ぶ。機械学習の知見がないとかなり難しい 2021/08/26

外部のウェブサイトに移動します

よろしければ下記URLをクリックしてください。

https://bookmeter.com/books/13054416
  • ご注意事項

    ご注意
    リンク先のウェブサイトは、株式会社ブックウォーカーの提供する「読書メーター」のページで、紀伊國屋書店のウェブサイトではなく、紀伊國屋書店の管理下にはないものです。
    この告知で掲載しているウェブサイトのアドレスについては、当ページ作成時点のものです。ウェブサイトのアドレスについては廃止や変更されることがあります。
    最新のアドレスについては、お客様ご自身でご確認ください。
    リンク先のウェブサイトについては、「株式会社ブックウォーカー」にご確認ください。

最近チェックした商品