内容説明
人工知能のための機械学習の基本,重要なアルゴリズムと技法,実用的なベストプラクティス。【例】テキストマイニング,教師あり学習によるオンライン広告クリックスルー予測,学習のスケールアップ(Spark),回帰による株価予測。
目次
第I部 機械学習の基本
1. 機械学習とPythonを始める
機械学習の定義と必要性
機械学習技術のハイレベルな概観
データの一般化
前処理,探索,特徴量エンジニアリング
モデル結合
インストールと設定
第II部 事例による実用的Python機械学習
2. 20のニュースグループデータセットでテキスト分析技法の検討
コンピュータによる言語理解
一般的なNLPライブラリからNLPの基本を学ぶ
ニュースグループデータの取得
ニュースグループデータの探索
テキストデータの特徴量
t-SNEでニュースグループデータを可視化
3. クラスタリングアルゴリズムとトピックモデルアルゴリズムによる20のニュースグループデータセットのマ
イニング
教師なし学習
k平均法(k-means)を使いニュースグループをクラスタリング
ニュースグループのなかに潜むトピックを発見
NMFを用いたトピックモデル
LDAを用いたトピックモデル
4. ナイーブベイズでスパムメール検出
分類を始める
ナイーブベイズの検討
分類性能評価
モデルのチューニングと交差検証
5. ニューストピックをサポートベクターマシンで分類
サポートベクターマシンによる分離境界検出
SVMでニュースグループトピックの分類
胎児心拍陣痛図による胎児の状態の分類
TensorFlowのSVMを使って乳ガンの分類
6. 木にもとづくアルゴリズムでオンライン広告のクリック予測
広告のクリックスルー予測
2種類のデータで開始 - 数値とカテゴリ
根から葉まで決定木を探索
決定木を最初から実装
決定木で広告クリックスルーを予測
アンサンブル決定木 - ランダムフォレスト
7. ロジスティック回帰でオンライン広告のクリックスルー予測
カテゴリ特徴量を数値に変換 - one-hotエンコードとordinalエンコード
ロジスティック回帰でデータを分類
ロジスティック回帰モデルの訓練
オンライン学習で大きなデータセットを訓練
マルチクラス分類の扱い
TensorFlowを使ったロジスティック回帰の実装
ランダムフォレストを使った特徴量選択
8. テラバイトクリックログに予測をスケールアップ
Apache Sparkの基本
PySparkによるプログラミング
巨大クリックログをSparkで学習
Sparkでカテゴリ変数の特徴量エンジニアリング
9. 回帰アルゴリズムで株価予測
株式市場と株価の簡単な紹介
回帰とは何か
株価データのマイニング
線形回帰で推定
決定木回帰で推定
サポートベクター回帰で推定
ニューラルネットワークで推定
回帰性能の評価
4つの回帰アルゴリズムを使って株価を予測
第III部 Python機械学習ベストプラクティス
10. 機械学習ベストプラクティス
機械学習ソリューションワークフロー
データ準備段階のベストプラクティス
訓練集合生成段階のベストプラクティス
モデル訓練,評価,選択段階のベストプラクティス
運用監視段階のベストプラクティス
-
- 電子書籍
- 災禍の魔女は自由に暮らしたい【タテ読み…
-
- 洋書電子書籍
- The Local Cardiac R…



