出版社内容情報
ライブラリの使い方と分析手法がよくわかる
「データサイエンス」と聞くと複雑な数式やSPSS などの高価なソフトウェアパッケージが
必要と考えるかもしれませんが、近年では「R」や本書で紹介する「Python」など、データ
分析に適した様々なオープンソースのソフトウェアやプログラミング言語が公開されており、
必要な知識さえあれば誰でも簡単に高度な分析を行う環境が整ってきています。本書はIT エ
ンジニアの読者を対象とし、データサイエンスの入門としてPython を使用してデータ集計や
機械学習などのデータ分析手法を習得することを目的としています。
Python はシンプルな文法で簡単に習得できる一方、NumPy(ナムパイ)をはじめ非常に多様
なライブラリが揃っており、今やデータサイエンスにおいて最も利用されているプログラミン
グ言語の1 つと言ってもいいでしょう。
効率的なデータ分析を実践し、自らのサービスにフィードハックを加えたいエンジニアにとって、
必読の一冊です。
第1章 データサイエンスの概要
1.1 メンデルもケプラーもデータサイエンティストだった
1.2 データサイエンスの手法の要点
1.3 データサイエンスの実業務への適用
1.4 本書の内容
第2章 Pythonとデータサイエンス
2.1 データサイエンスで用いられるソフトウェア
2.2 データサイエンスに使えるPythonのライブラリ
2.3 Pythonの環境構築
2.4 numpy、pandasの基本操作
2.5 Pandas
第3章 データの読み込み、可視化、集計
3.1 データの読み込み
3.2 matplotlibによる可視化
3.3 集計
3.4 RDBMSとの連携
第4章 様々な統計分析
4.1 ヒストグラム分析
4.2 2つのグループを比較する(検定)
4.3 分散分析
第5章 回帰分析
5.1 線形回帰分析
5.2 単回帰分析
5.3 重回帰分析
第6章 教師なし学習
6.1 次元削除
6.2 クラスタリング
第7章 教師あり学習
7.1 データセットの準備
7.2 k最近傍法
7.3 ナイーブベイズ
7.4 ロジスティック回帰
7.5 各種法の比較
第8章 機械学習のWeb API
8.1 Webサービスの基本とFlask
8.2 線形回帰API
8.3 Webアプリのソースコード
付録1 基本的な統計量
1.1 平均値
1.2 分散、標準偏差
1.3 共分散、相関係数
1.4 中央値
1.5 NumPyを使用した計算
付録2 機械学習の手法の分類
2.1 クラス判別
2.2 回帰分析
2.3 クラスタリング
杜 世橋[トセイハシ]
東京工業大学 大学院 生命理工学研究科を卒業し、バイオ・インフォマティクスを学ぶ。現在は機械学習を用いたサービスのシステム設計や様々なサービスのデータ分析に従事している。趣味は家庭菜園であり、自宅のベランダは様々な植物で占拠されている(別な意味でもサイエンティスト)。
内容説明
本書はITエンジニアの読者を対象とし、データサイエンスの入門としてPythonを利用してデータ集計や機械学習などのデータ分析手法を習得することを目的としています。Pythonはシンプルな文法で簡単に習得できる一方、NumPy(ナムパイ)をはじめ非常に多様なライブラリが揃っており、今やデータサイエンスにおいて最も利用されているプログラミング言語の1つと言ってもいいでしょう。お手元のパソコンで、お手軽にデータサイエンスにチャレンジしてみてください。
目次
1 データサイエンスの概要
2 Pythonとデータサイエンス
3 データの読み込み、可視化、集計
4 様々な統計分析
5 回帰分析
6 教師なし学習
7 教師あり学習
8 機械学習のWeb API
付録1 基本的な統計量
付録2 機械学習の手法の分類
著者等紹介
杜世橋[トセイハシ]
東京工業大学大学院生命理工学研究科を卒業し、バイオ・インフォマティクスを学ぶ。現在は機械学習を用いたサービスのシステム設計や様々なサービスのデータ分析に従事している(本データはこの書籍が刊行された当時に掲載されていたものです)
※書籍に掲載されている著者及び編者、訳者、監修者、イラストレーターなどの紹介情報です。
感想・レビュー
※以下の感想・レビューは、株式会社ブックウォーカーの提供する「読書メーター」によるものです。
ゆき
かずや
サンセット