出版社内容情報
システムとデータの両面にスポットを当て、データ分析基盤の整備/運用/活用の指針をまとめた入門書。
データ分析の中心にある「データ分析基盤」を取り巻く環境は、大きく変わりました。機械学習/ディープラーニング、マーケティング、需給予測、不正検知を筆頭にデータ利用が多角化し、データ分析基盤に求められる役割も多様化が進んでいます。
本書では、データ分析基盤の「今」に焦点を合わせ、基本用語の整理から歴史、クラウドをはじめとしたインフラ、主要な技術スタック、システムモデル、データドリブンのための可視化&測定術まで徹底解説。
合わせて、長期視点に立ったユーザー中心の運用に欠かせない「セルフサービス」「SSoT」に基づいたルール作り、それらを実現するためのゾーン/タグ管理、メタデータ管理、データの品質管理も平易にまとめました。
今回の改訂では新たに第0章「[速習]データ分析基盤と周辺知識」&第9章「[事例で考える]データ分析基盤のアーキテクチャ設計」を収録。より基本に忠実にかつ実践への道しるべとなる入門書を目指し解説を強化しました。
広くデータ分析基盤に関わるエンジニア/ユーザーの方々へ、ユーザーが自然と集まり、データ活用を促進するシステムの実現のために、実践で活かせる考え方をお届けします。
内容説明
大規模データ&データベースの技術基礎。押さえておきたい主要技術スタック。分析環境のセルフサービス。SSoT(Single Source of Truth)。データ管理のためのメタデータ。データの精度を高めるデータ品質の確保。自由に、素早く、反復作成できるデータマート。事例でわかるアーキテクチャ設計の基本フロー。データドリブンを促進するデータ分析基盤の運用指針。大幅増補システム&データ整備の基本をこの1冊で!
目次
第0章 “速習”データ分析基盤と周辺知識―データ分析基盤入門プロローグ
第1章 “入門”データ分析基盤―データ分析基盤を取り巻く「人」「技術」「環境」
第2章 データエンジニアリングの基礎知識―4つのレイヤー
第3章 データ分析基盤の管理&構築―セルフサービス、SSoT、タグ、ゾーン、メタデータ管理
第4章 データ分析基盤の技術スタック―データソースからアクセスレイヤー、クラスター、ワークフローエンジンまで
第5章 メタデータ管理―データを管理する「データ」の重要性
第6章 データマート&データウェアハウスとデータ整備―DIKWモデル、データ設計、スキーマ設計、最小限のルール
第7章 データ品質管理―質の高いデータを提供する
第8章 データ分析基盤から始まるデータドリブン―データ分析基盤の可視化&測定
第9章 “事例で考える”データ分析基盤のアーキテクチャ設計―豊富な知識と柔軟な思考で最適解を目指そう
Appendix “ビッグデータでも役立つ”RDB基礎講座
著者等紹介
斎藤友樹[サイトウユウキ]
SIerで官公庁、年金、広告などのシステムの要件定義~保守運用まで、SEやマネージャーとしてフロントエンド~サーバーサイドまでひととおり経験。現在は、事業会社にてビッグデータ分析に関するシステムの構築、蓄積したデータの活用を行う仕事に従事している。直近では利用者が数千万を超える環境で、ストリーミングデータの処理や一日あたり5000超のETLジョブを捌くデータ分析基盤のアーキテクチャ設計やデータ活用のためのしくみ作りを担当。また、AWSなどのパブリッククラウドイベントの登壇などを通して積極的に情報発信を行っている(本データはこの書籍が刊行された当時に掲載されていたものです)
※書籍に掲載されている著者及び編者、訳者、監修者、イラストレーターなどの紹介情報です。
感想・レビュー
※以下の感想・レビューは、株式会社ブックウォーカーの提供する「読書メーター」によるものです。
hippos
YK
Qucchi
horada