内容説明
分散クラスタシステムHadoopは、MapReduceという枠組みを利用して処理を行う。MapReduceはさまざまな分散処理を単純な処理の組み合わせで解決できるHadoopの特徴のひとつである。本書ではHadoopでできるデータ処理をシンプルに解説。「理解しにくい」といわれるMapReduce処理を13の単純なパターンで紹介し、それらを使って「株価分析」「ログ解析」「ワードカウント」から簡単な「クラスタ分析」までを試す。ロジックはJavaに基づく簡易コードを使うほか、手続き型処理系「Pig」を使って説明。自分がHadoopに処理させたいことを実現するための考え方を紹介する。
目次
ビッグデータとデータの活用
Hadoopのエコシステム―Hadoopとオープンソースプロダクト
データを分散するって、どういうこと?―分散ファイルシステム
ばらばらか、まとめるか、それが問題だ―MapReduceの基本概念
並列処理はパターンで覚えよう―基本的な13の処理パターン
とにかく動かしてみよう!―株価チャートの処理
単語を数えるだけでも見えてくる?―テキストの解析
構造がないなら意味を与えればいいじゃない?―アクセスログの分析
データとデータをくっつける!―鉄道情報の分析
簡単な分析をしてみよう―クラスタ分析
Hadoopべからず集
付録 簡易環境の構築/リファレンス
著者等紹介
三木大知[ミキダイチ]
システムエンジニア。株式会社JSOLに勤務(本データはこの書籍が刊行された当時に掲載されていたものです)
※書籍に掲載されている著者及び編者、訳者、監修者、イラストレーターなどの紹介情報です。
感想・レビュー
※以下の感想・レビューは、株式会社ブックウォーカーの提供する「読書メーター」によるものです。
小野靖貴
まさお