出版社内容情報
データサイエンスの現場において、その業務は「前処理」と呼ばれるデータの整形に多くの時間を費やすと言われています。「前処理」を効率よくこなすことで、予測モデルの構築やデータモデリングといった本来のデータサイエンス業務に時間を割くことができるわけです。本書はデータサイエンスに取り組む上で欠かせない「前処理スキル」の効率的な処理方法を網羅的に習得できる構成となっています。ほとんどの問題についてR、Python、SQLを用いた実装方法を紹介しますので、複数のプロジェクトに関わるようなデータサイエンスの現場で重宝するでしょう。
目次
1 入門前処理(前処理とは)
2 データ構造を対象とした前処理(抽出;集約;結合;分割;生成;展開)
3 データ内容を対象とした前処理(数値型;カテゴリ型;日時型;文字型;位置情報型)
4 実践前処理(演習問題)
著者等紹介
本橋智光[モトハシトモミツ]
システム開発会社の研究員、Web系企業のデータサイエンティストを経て、デジタル医療スタートアップのサスメド株式会社のCTO。株式会社ホクソエムにも所属。量子アニーリングコンピュータの検証に個人事業主として従事している。製造業、小売業、金融業、運輸業、レジャー業、Webなど多様な業種のデータ分析経験を持つ。KDD CUP 2015 2位(本データはこの書籍が刊行された当時に掲載されていたものです)
※書籍に掲載されている著者及び編者、訳者、監修者、イラストレーターなどの紹介情報です。
感想・レビュー
※以下の感想・レビューは、株式会社ブックウォーカーの提供する「読書メーター」によるものです。
ばにき
2
AwesomeとNotAwesomeを眺めているだけでも楽しい。前処理は自分でググったりしてやってきたので、よりエレガントなやり方を知りたいと思っていた。RとPythonの併記もうれしい。2022/02/21
toji
2
目的に応じた言語の使い分け方や、awesomeな例を体系的に記してくれているので助かる。ざっと目を通して分かりにくいところを実際に試すだけで、前処理のやり方で悩むことが減りそうだ。あとはkaggleなどで実例を見ながら身につけていきたい。ただし、pandasのquery関数は可読性が高いが、パフォーマンスはおちると思う。実際に試したところ、直接指定2021/05/05
ONE_shoT_
2
データの前処理のノウハウを詰め込んだ一冊。データ構造を対象とした前処理(抽出・集約・結合・ 分割・生成・展開)、データ内容を対象とした前処理(数値型・カテゴリ型・日時型・文字型・位置情報型)のSQL/R/Pythonコードが載っているので、辞書的に使えそう。特に、実践編として載っている、レコメンデーションや予測モデリングを想定した前処理が参考になります。2019/01/29
m1104m
2
県立図書館。 SQL、R、Pythonでのやり方をそれぞれAWESOMEなやり方を紹介している。 分析してる時に手元に一冊欲しい。2018/11/04
大谷周平
2
SQL/R/Pythonでさまざまな前処理を記述。可読性の良いコード、悪いコードの例がある点がよかった。最近メモリに乗り切らないデータ量を扱うケースが多くて、Pythonだけでやる限界を感じていたので、SQLへの橋渡しをしてくれたのが良かった。 2018/05/03