pandasライブラリ活用入門[第2版] データクリーニング/前処理など一連の分析プロセスをマスター!

個数:1
紙書籍版価格
¥4,180
  • 電子書籍
  • Reader
  • ポイントキャンペーン

pandasライブラリ活用入門[第2版] データクリーニング/前処理など一連の分析プロセスをマスター!

  • 著者名:DanielY.Chen/吉川邦夫/福島真太朗
  • 価格 ¥4,180(本体¥3,800)
  • インプレス(2023/09発売)
  • GW前半スタート!Kinoppy 電子書籍・電子洋書 全点ポイント30倍キャンペーン(~4/29)
  • ポイント 1,140pt (実際に付与されるポイントはご注文内容確認画面でご確認下さい)
  • ISBN:9784295017691

ファイル: /

内容説明

※この商品は固定レイアウトで作成されており、タブレットなど大きいディスプレイを備えた端末で読むことに適しています。また、文字列のハイライトや検索、辞書の参照、引用などの機能が使用できません。

<データサイエンス/データ分析の基本技術を体系的に網羅!>
<pandasの威力を実感! 効率的なデータ操作と可視化を実践できる>

データ分析や機械学習を利用する現場では、データを取り込み、変換/整備する必要があります。
そうしたデータの取り込みや前処理から始め、データ解析をスムーズに進めるための
Pythonライブラリとして、pandasが用意されています。

本書では、pandasなどを使ったデータ分析全体の基本手法を体系的・網羅的にカバー。
巻末の付録では、Python環境のインストールや文法などPythonの基本事項も確認できます。

初中級レベルの方がコードを試しながら理解を深めたり、おぼろげな知識について
確認したりすることで、基礎技術の定着やスキルアップが図れる一冊になっています。

「データクリーニング/前処理に慣れてから、モデリングを解説!
解釈しやすい形にデータセットを変更できる」

※本書は『Pandas for Everyone, 2nd Edition』の翻訳書です。

■本書の「序文」から抜粋
pandasを使うと、Pythonによるデータ分析が理解しやすくなり、
組織的で保守が可能なデータセットを作ることができ、
しかも(最も重要なことですが)整然としたデータセットが得られます。

目次

表紙
口絵
本扉
サンプル/正誤表など
序文―第2版に寄せて
初版の序文
はじめに
本書の構成
本書の読み方/開発環境の準備
謝辞/初版の謝辞
著者について
第2版での変更点
目次
第1部 基本的な使い方
第1章 DataFrameの基礎/1.1 はじめに
1.2 最初のデータセットをロードする
1.3 列、行、セルを見る
1.4 グループ分けと集約の計算
1.5 基本的なプロット
1.6 まとめ
第2章 pandasのデータ構造
2.1 データを自作する
2.2 Seriesについて
2.3 DataFrameについて
2.4 SeriesとDataFrameの書き換え
2.5 データのエクスポートとインポート
2.6 まとめ
第3章 プロッティングによるグラフ描画
3.1 データを可視化する理由/3.2 matplotlibの基本
3.3 matplotlibによる統計的グラフィックス
3.4 seaborn
第4章 「整然データ」を作る
4.1 列に(変数ではなく)値が入っているとき
4.2 複数の変数を含む列があるとき
4.3 行と列の両方に変数があるとき
4.4 まとめ
第5章 関数を適用(apply)する
5.1 関数の初歩
5.2 applyの基本
5.3 関数のベクトル化
5.4 ラムダ関数
5.5 まとめ
第2部 データ操作
第6章 データの組み立て/6.1 データセットを組み合わせる
6.2 連結
6.3 データが観測単位ごとの表に分かれている場合
6.4 複数のデータセットをマージする
6.5 まとめ
第7章 データの正規化/7.1 1個の表に観察単位が複数あるとき(正規化)
7.2 まとめ
第8章 groupby演算による分割-適用-結合
8.1 集約
8.2 変換(transform)
8.3 フィルタリング
8.4 DataFrameGroupByオブジェクト
8.5 マルチインデックスの使い方
8.6 まとめ
第3部 データの型
第9章 欠損データ/9.1 NaNとは何か
9.2 欠損値はどこから来るのか
9.3 欠損データの扱い
9.4 pandas組み込みのNA(欠損値)
9.5 まとめ
第10章 データ型/10.1 データ型
10.2 型変換
10.3 カテゴリ型データ
第11章 文字列とテキストデータ
11.1 文字列
11.2 文字列メソッド
11.3 その他の文字列メソッド
11.4 文字列の書式整形(f文字列)
11.5 正規表現(RegEx)
11.6 regexライブラリ/11.7 まとめ
第12章 日付と時刻/12.1 Pythonのdatetimeオブジェクト
12.2 datetimeへの変換
12.3 日付を含むデータをロードする
12.4 日付の各部を抽出する
12.5 日付の計算とtimedelta
12.6 datetimeのメソッド
12.7 株価データを取得する
12.8 日付によるデータの絞り込み
12.9 日付の範囲
12.11 リサンプリング
12.12 時間帯(タイムゾーン)
12.13 日付と時刻の扱いが優れたarrowライブラリ
12.14 まとめ
第4部 データモデリング
第13章 線形回帰モデル/13.1 単純な線形回帰
13.2 重回帰
13.3 カテゴリ変数を使うモデル
13.4 sklearnのone-hotエンコーディングと、トランスフォーマーのパイプライン
13.5 まとめ
第14章 一般化線形モデル
14.1 ロジスティック回帰
14.2 ポアソン回帰
14.3 その他の一般化線形モデル
14.4 まとめ
第15章 生存分析
15.1 生存データ
15.2 カプランマイヤー曲線
15.3 Coxの比例ハザードモデル
15.4 まとめ
第16章 モデルを評価する
16.2 複数のモデルを比較する
16.3 k分割交差検証
16.4 まとめ
第17章 正則化で過学習に対応する/17.1 正則化とは
17.2 LASSO回帰
17.3 リッジ回帰
17.4 Elastic Net
17.5 交差検証
17.6 まとめ
第18章 クラスタリング/18.1 k平均法
18.2 階層的クラスタリング
18.3 まとめ
第5部 次のステップへ
第19章 pandas周辺の強力な機能/19.1 Pythonの科学計算スタック
19.2 コードの性能
19.6 Polars/19.7 pyjanitor/19.8 pandera/19.9 機械学習
19.10 出版/19.11 ダッシュボード/19.12 まとめ
第20章 仲間と学び続けよう/20.1 地元でのミートアップ
20.2 カンファレンス
20.3 The Carpentries/20.4 ポッドキャスト/20.5 その他のリソース
20.6 まとめ
第6部 付録
付録A コンセプトマップ
付録B インストールと設定
付録C コマンドライン
付録D プロジェクトのテンプレート
付録E Pythonの使い方
付録F ワーキングディレクトリ
付録G 環境
付録H パッケージのインストール
付録I ライブラリのインポート
付録J コーディングスタイル
付録K コンテナ(リスト、タプル、辞書)
付録L 値のスライスと範囲
付録M ループ
付録N リストの内包表記
付録O 関数
付録P 範囲とジェネレータ
付録Q 複数代入
付録R NumPyのndarray
付録S クラス
付録T SettingWithCopyWarning
付録U メソッドチェーン
付録V コードの実行時間を計測する
付録W 文字列の書式整形(フォーマッティング)
付録X 条件文(if-elif-else)
付録Y New York ACSによるロジスティック回帰の例
付録Z 結果をR言語で再現する
主な参考文献
索引
翻訳者/監訳者プロフィール
奥付