出版社内容情報
BigQuery、Pandas、Polarsを使った実用的なモダン前処理を学びましょう!
データ分析において前処理が重要かつ多くの時間をとられる業務であることは広く知られてきました。同時に前処理を実現するためのライブラリは大きく改善されてきています。また、機械学習モデルの進化によって、求められる前処理の内容も変わってきています。本書は、初めて学ぶ方にも昔学んでから知識をアップデートしていない方にも、悪いサンプルコードと良いサンプルコードを紹介しながら丁寧にデータ分析の前処理を学べる技術書です。
本書は、第一版の前処理大全から大きく構成や内容を変更しています。SQLはBigQuery準拠に変更し、Pandasは最新バージョンの思想に沿い新機能を使ったコードに変更しました。Rの代わりにR同様にパイプラインで書きやすくかつ処理エンジンがRustベースで書かれているため高速なPolarsに変更しました。また、前処理内容も大きく変更し、より現在よく使われる処理を実用ケースとともに解説しています。また、新たな試みとしてコラムとして少しマニアックだけど役立つプログラムの裏側の解説や分析テクニックを紹介しており、中級者の方にとっても有用な知識をお届けしています。
内容説明
データ分析にさらなる進化を。データ加工の技とモダンなコードで織りなすAwesomeな実践知識を厳選。
目次
1 前処理の基礎知識(前処理とは;SQL;pandas;Polars)
2 データの構造を対象とした前処理(抽出;集約;結合;分割;整形)
3 データの内容を対象とした前処理(数値;カテゴリ;日時;文字列;ウィンドウ関数)
4 実践前処理(演習問題)
著者等紹介
本橋智光[モトハシトモミツ]
SIerの研究員、Web系企業の分析者を経て、SUSMEDのCTO。株式会社ホクソエムのメンバーでもある。基盤・Webアプリ・機械学習・数理最適化等幅広くこなす。最近の好きなプログラミング言語はRust
橋本秀太郎[ハシモトシュウタロウ]
北海道大学大学院情報科学研究科博士後期課程修了。博士(情報科学)。大学院修了後はSIerでデータ分析関連の研究開発やコンサルティングに従事。現在は国内でも有数の膨大なデータを持つインターネット企業に勤め、データサイエンスチームのリードとして、日々サービスグロースのためのデータ分析を行う(本データはこの書籍が刊行された当時に掲載されていたものです)
※書籍に掲載されている著者及び編者、訳者、監修者、イラストレーターなどの紹介情報です。