出版社内容情報
機械学習はアートである
分析の落とし穴を回避し、予測を成果に変える実践的ガイド
本書は、「機械学習はサイエンスではなくアートである」という理念のもと、単なる分析手法の使い方を超えた、実務で役立つ知識を丁寧に伝える。機械学習を効果的に活用するための細やかなデータ加工やモデルの調整、例えば、データ分析において頻繁に直面する「過学習」や「不均衡なデータ」への対処法、ハイパーパラメータのチューニングなど、現場の経験に基づく知見をハンズオン形式で伝授する。
本書では機械学習の最も重要な概念に焦点を当て、それぞれの手法をR言語によって実装する。直感的なビジュアル解説と共に、k近傍法から始まり、回帰、分類、ニューラルネットワーク、時系列解析など、幅広い手法を段階的に紹介。数学的な内容はできるだけ直感的に、グラフや図を通じた視覚的な説明に留められており、数式に不安のある読者でも無理なく読み進めることができる。
また、機械学習の各手法をquickかつeasyに実装するために原著者が開発したqeMLパッケージを活用し、最小限のコードで学習・予測・評価・可視化できる点も魅力。実務での応用を見据え、初学者であっても機械学習を本質から理解したい読者に最適な実践書である。
[原著]The Art of Machine Learning: A Hands-On Guide to Machine Learning with R, No Starch Press, 2024
【目次】
イントロダクション
PART I 導入および近傍法ベースの手法
第1章 回帰モデル
1.1 例:バイクシェアのデータセット
1.2 機械学習と予測について
1.3 k近傍法(kNN)の導入
1.4 ダミー変数とカテゴリカル変数
1.5 qeKNN()を用いた分析
1.6 回帰関数:機械学習の基礎
1.7 バイアスとバリアンスのトレードオフ
1.8 例:mlbデータセット
1.9 kNNとカテゴリカル特徴量
1.10 スケーリング
1.11 ハイパーパラメータを選ぶ
1.12 ホールドアウト・セット
1.13 落とし穴:p値ハッキングとハイパーパラメータ選択
1.14 落とし穴:長期トレンド
1.15 落とし穴:汚いデータ
1.16 落とし穴:欠損データ
1.17 regtoolsのkNNコード
1.18 まとめ
第2章 分類モデル
2.1 回帰の一種としての分類タスク
2.2 例:Telco Churnデータセット
2.3 例:脊椎データ
2.4 落とし穴:誤差率がほとんど改善しない
2.5 混同行列
2.6 不均衡データのクリーニング
2.7 ROC曲線とAUC
2.8 まとめ
第3章 バイアス,バリアンス,過学習,交差検証法
3.1 過学習と学習不足
3.2 交差検証法
3.3 まとめ
第4章 特徴量が多いときの対処法
4.1 落とし穴:大きいデータに伴う計算コストの問題
4.2 次元削減の導入
4.3 次元削減の手法
4.4 次元の呪い
4.5 次元削減の他の手法
4.6 計算に関する発展的な機能
4.7 まとめ
PART II 決定木ベースの分析手法
第5章 kNNの次のステップ:決定木
5.1 決定木の基本知識
5.2 qeDT()関数
5.3 例:ニューヨーク市内のタクシーのデータ
5.4 例:Forest Coverデータセット
5.5 決定木のハイパーパラメータ:分割の基準
5.6 qeDT()関数のハイパーパラメータ
5.7 まとめ
第6章 決定木モデルの調整
6.1 バイアスとバリアンス,バギングとブースティング
6.2 バギング:再サンプリングによる新しいツリー
6.3 ブースティング:ツリーの調整を繰り返す
6.4 落とし穴:ノーフリーランチの定理
第7章 ハイパーパラメータの良い組み合わせを見つける
7.1 ハイパーパラメータの組み合わせ
7.2 qeFT()を用いたグリッドサーチ
7.3 例:プログラマとエンジニアの収入
7.4 例:プログラマとエンジニアの職業
7.5 例:音素データ
7.
内容説明
本書は、「機械学習はサイエンスではなくアートである」という理念のもと、単なる分析手法の使い方を超えた、実務で役立つ知識を丁寧に伝える。機械学習を効果的に活用するための細やかなデータ加工やモデルの調整、例えば、データ分析において頻繁に直面する「過学習」や「不均衡なデータ」への対処法、ハイパーパラメータのチューニングなど、現場の経験に基づく知見をハンズオン形式で伝授する。本書では機械学習の最も重要な概念に焦点を当て、それぞれの手法をR言語によって実装する。κ近傍法から始まり、回帰、分類、ランダムフォレスト、ニューラルネットワーク、時系列解析など、幅広い手法を段階的に紹介。数学的な内容はできるだけ直感的に、グラフや図を通じた視覚的な説明に留められており、数式に不安のある読者でも無理なく読み進めることができる。また、機械学習の各手法をquickかつeasyに実装するために原著者が開発したqeMLパッケージを活用し、最小限のコードで学習・予測・評価・可視化できる点も魅力。実務での応用を見据え、初学者であっても機械学習を本質から理解することができる。分析の落とし穴を回避し、予測を成果に変える実践的ガイドである。
目次
1 導入および近傍法ベースの手法(回帰モデル;分類モデル;バイアス、バリアンス、過学習、交差検証法;特徴量が多いときの対処法)
2 決定木ベースの分析手法(κ近傍法の一歩先:決定木;決定木モデルの調整;ハイパーパラメータの良い組み合わせを見つける)
3 線形モデル―線形関係に基づく手法(パラメトリックモデル;縮小推定と正則化)
4 データを線や平面で分離する手法(境界線を用いたアプローチ:サポートベクトルマシン;強化された線形モデル:ニューラルネットワーク)
5 応用(画像分類;時系列データとテキストデータ)
付録
著者等紹介
マトロフ,ノーマン[マトロフ,ノーマン] [Matloff,Norman]
博士は、カリフォルニア大学デービス校(UC Davis)の計算機科学の教授であり、以前は同大学の統計学の教授を務めていた。ロサンゼルスで生まれ、イーストロサンゼルスおよびサンガブリエル・バレーで育ち、カリフォルニア大学ロサンゼルス校で数学のPhDを取得。現在の研究分野は、機械学習、公正なAI、並列処理、統計計算、そして欠測データを扱うための統計的方法論である。国連のもとで設立された、データベースソフトウェアのセキュリティに関する国際委員会であるIFIP Working Group 11.3の任命メンバーを務めたことがある。また、UC Davis統計学部の創設メンバーであり、計算機科学部の設立にも携わった。UC Davisにおける全学優秀教育賞および優秀公共奉仕賞を受賞している。R Journalの編集長、および、Journal of Statistical Softwareの編集委員を務め、複数の教科書を刊行してきた。Rを用いた著書Statistical Regression and Classification: From Linear Models to Machine Learningで、2017年にZiegel賞を受賞した
ヤンジャクリン[ヤンジャクリン]
東京大学大学院理学系研究科物理学専攻 博士課程修了。博士(理学)。現在は企業にてシニア・データアナリストおよび講師として活動している。主にTableau、Pythonを活用し、数多くの講座も制作してきた(本データはこの書籍が刊行された当時に掲載されていたものです)
※書籍に掲載されている著者及び編者、訳者、監修者、イラストレーターなどの紹介情報です。



