現場のプロが伝える前処理技術―基礎から実践まで学ぶテーブルデータ/自然言語/画像データの前処理

  • ただいまウェブストアではご注文を受け付けておりません。
  • サイズ B5判/ページ数 316p/高さ 24cm
  • 商品コード 9784839970017
  • NDC分類 007.6
  • Cコード C3055

出版社内容情報

昨今、データ分析や機械学習の手法は高度になり、また多くの分野で使われるようになってきています。しかし日常業務で扱っているデータは、複雑かつ不完全で、構造化されていないものも多くあり、そのままでは機械学習モデルに投入したり、適切に分析をすることができません。

本書では、そういった不完全なデータを、データ分析や機械学習で扱えるように整える、「前処理」に焦点を当てています。

「データサイエンティストの時間の90%はデータの前処理に費やされ、残りの時間は実際のモデルのトレーニングと展開に費やされる」とよく言われますが、それにもかかわらず、前処理をどのようにすれば良いかについては後回しにされがちです。

本書は、「テーブルデータ」「自然言語」「画像」の3種類のデータを取り上げ、それぞれについての前処理を詳細に説明しています。データに対してどのようなコードを書いて処理するか、ということだけにとどまらず、「現場ではまず何を行うか」「複数のアプローチがあり得る場合、どれを選ぶべきか」といった、プロならではの知恵も多く詰め込みました。

データ分析をこれから仕事にしたい人、すでに現場にいるけれども迷うことが多い方にとって、心強い助けとなる1冊です。


<本書の構成>

Chapter1 本書の概要
Chapter2 テーブルデータの前処理
2-1 テーブルデータの前処理
2-2 テーブルデータの前処理
2-3 データの結合と集約
2-4 テーブルデータの理解
2-5 カテゴリカル変数の処理
2-6 欠損値の処理
2-7 データスケーリング
2-8 データ変換
2-9 次元削減法
2-10 特徴量選択

Chapter3 自然言語の前処理
3-1 自然言語データ処理の基礎
3-2 テキスト読み込み
3-3 クレンジング
3-4 形態素解析
3-5 ベクトル化
3-6 オーグメンテーション

Chapter4 画像データの前処理
4-1 画像認識の流れ
4-2 ディレクトリ構成
4-3 画像の撮影
4-4 アノテーション
4-5 画像の読み込みと表示
4-6 切り抜きとリサイズ
4-7 画像の結合とスケーリング
4-8 データの分割
4-9 「データ拡張」で過学習を防ぐ

Chapter5 業界別データ活用動向
5-1 製造業におけるデータ取得と活用
5-2 金融業界におけるデータ取得と活用
5-3 マーケティングにおけるデータ取得と活用
5-4 小売データの取得と活用


※本書のプログラムは、Google Colaboratoryを使って実際に試しながら学べるようになってい

内容説明

データ分析、機械学習に携わるすべてエンジニアのための必携書。

目次

1 本書について(本書の内容;本書の読者対象 ほか)
2 テーブルデータの前処理(テーブルデータの前処理;テーブルデータの前処理 ほか)
3 自然言語の前処理(自然言語データの処理の基礎;テキスト読み込み ほか)
4 画像データの前処理(画像認識の流れ;ディレクトリ構成 ほか)
5 業界別データ活用動向(製造業におけるデータ取得と活用;金融業界におけるデータ取得と活用 ほか)

著者等紹介

石井大輔[イシイダイスケ]
株式会社Kiara(キアラ)代表取締役、Team AI代表。1975年岡山県生まれ。京都大学総合人間学部ではフランス史と数学(線形代数)ダブル専攻。伊藤忠商事のミラノとロンドンに駐在後、起業。2016年、機械学習の研究会コミュニティTeam AIを立ち上げる。現在メンバー8000人。FinTech、医療などデータ分析ハッカソンなど700回のイベントを実施。グループチャットのAI自動化ツールKiaraを自社サービスとして構築

漆畑充[ウルシバタミツル]
株式会社Crosstab代表取締役。2005年慶應義塾大学理工学部卒業、2007年同大学院理工学研究科修士課程修了。2007年株式会社金融エンジニアリング・グループ入社。金融機関向けデータ分析業務に従事。与信及びカードローンのマーケティングに関する数理モデルを作成。その後大手ネット広告会社デジタル・アドバタイジング・コンソーシアム株式会社にてアドテクノロジーに関するデータ解析を行う。またクライアントに対してデータ分析支援及び提言/コンサルティング業務を行う。統計モデルの作成及び特にビジネスアウトプットを重視した分析が得意領域である。その他開発実績としてデータ解析に関する特許を複数取得。2019年に株式会社Crosstabを創業し今に至る

及川大智[オイカワダイチ]
岩手大学工学院デザイン・メディア工学専攻主席卒業。国際会議ICISIP2014にて最優秀学生論文賞を受賞するなど国内外で多くの論文を発表。人工知能やデータ分析の分野で開発会社において新人優秀賞を受賞、データサイエンティストとして独立した後、現在は総合コンサルティングファームに勤務。大手企業向けのデータ分析や画像認識等のプロジェクトのコンサルティングや業務デザインなどを担当している

大下健史[オオシタタケヒト]
ブレインズコンサルティング株式会社(Brains Consulting,Inc./略称BCI)最高数理責任者(CMO)。1979年岐阜県飛騨市生まれ。富山大学理学部数学科卒。北陸先端科学技術大学院大学情報科学研究科修了。大学院では、数理論理学領域における一般位相を使った意味論について研究を行う。その後、約10年間システムエンジニアとして職務に従事。2014年ブレインズコンサルティング入社。2年後、最高数理責任者に就任。需要予測システムのエンジン開発、文章生成モデルの検証・プロトタイプ開発など、データによらず各種PoC、プロトタイプ開発の推進などAI/データ分析に関する案件に幅広く携わる

オング優也[オングユウヤ]
シリコンバレーで機械学習、ディープラーニング、確率的最適化やフェデレーテッドラーニング関連の研究開発を行っているリサーチソフトウェアエンジニア。ペンシルベニア州立大学情報科学部でデータサイエンスを専攻し、2019年に卒業。過去には感情認識と感情表現の研究や、画像処理などの開発なども行っていた(本データはこの書籍が刊行された当時に掲載されていたものです)
※書籍に掲載されている著者及び編者、訳者、監修者、イラストレーターなどの紹介情報です。

感想・レビュー

※以下の感想・レビューは、株式会社ブックウォーカーの提供する「読書メーター」によるものです。

dahatake

0
これはデータに関わる全てのエンジニアにオススメする。現場のための素晴らしい書。 タブラー・自然言語・画像に関する、いわゆる前処理・Data Prep・クレンジングについて相当理解できる。高度な部分にも触れられている。 それにしてもタブラー形式の前処理をやる上では、統計の知識は必須。 もっと勉強せねば…2020/12/17

外部のウェブサイトに移動します

よろしければ下記URLをクリックしてください。

https://bookmeter.com/books/16351241
  • ご注意事項

最近チェックした商品