詳解Apache Spark―大規模データ分析を基礎から、徹底的に

個数:

詳解Apache Spark―大規模データ分析を基礎から、徹底的に

  • ウェブストアに3冊在庫がございます。(2024年04月25日 15時11分現在)
    通常、ご注文翌日~2日後に出荷されます。
  • 出荷予定日とご注意事項
    ※上記を必ずご確認ください

    【ご注意事項】 ※必ずお読みください
    ◆在庫数は刻々と変動しており、ご注文手続き中に減ることもございます。
    ◆在庫数以上の数量をご注文の場合には、超過した分はお取り寄せとなり日数がかかります。入手できないこともございます。
    ◆事情により出荷が遅れる場合がございます。
    ◆お届け日のご指定は承っておりません。
    ◆「帯」はお付けできない場合がございます。
    ◆画像の表紙や帯等は実物とは異なる場合があります。
    ◆特に表記のない限り特典はありません。
    ◆別冊解答などの付属品はお付けできない場合がございます。
  • ●店舗受取サービス(送料無料)もご利用いただけます。
    ご注文ステップ「お届け先情報設定」にてお受け取り店をご指定ください。尚、受取店舗限定の特典はお付けできません。詳細はこちら
  • サイズ B5判/ページ数 337p/高さ 24cm
  • 商品コード 9784774181240
  • NDC分類 007.6
  • Cコード C3055

出版社内容情報

Apach Sparkはより高速にビッグデータを処理するための分散処理フレームワークです。 SQLインターフェースや機械学習などの機能が標準で組み込まれ、バッチ処理だけでなくストリーミング処理や対話的な処理にも対応できるため、さまざまなシーンのデータ分析を強力にサポートします。本書では、Sparkの分散処理の基礎であるRDDのしくみ、Sparkを構成する各コンポーネントの機能を理解するところからはじめます。 さらにSparkクラスタの構築と運用、構造化データを処理するためのDataFrame APIとSpark SQL、ストリーミング処理のためのSpark Streaming、機械学習ライブラリMLlib、グラフ処理のためのGraphXの各コンポーネントの実践的な利用方法を基礎から徹底的に解説します。また基本機能の解説だけではなく、多くの実践的な利用例を通してSparkを理解し、アプリケーション作成ができることを目指す構成となっています。「5章 DataFrame APIとSpark SQL」では構造化データを分析するためのインタフェースを利用し、実際に公開されているオープンデータの分析を通してDataFrame APIやSpark SQLの使い方が学べます。「6章 Spark Streaming」ではSparkのストリーミング処理によるアクセスログの集計処理やTwitterのデータ抽出処理の例を通して、Spark Streamingのアプリケーション作成について学べます。「7章 MLlib」ではSparkの機械学習ライブラリによる好みの映画のレコメンドや住宅価格の予測やスパムメッセージの検出する方法を学べます。「8章 GraphX」ではSparkのグラフ処理ライブラリによるユーザの行動ログのグラフ化やアソシエーション・ルールによるアイテムレコメンドの例を通して、GraphXアプリケーションの実装方法が学べます。 SparkはScala、Java、Python、Rのプログラミングインタフェースを提供していますが、本書ではScalaで解説をします。

内容説明

Apach Sparkはより高速にビッグデータを処理するための分散処理フレームワークです。SQLインターフェースや機械学習などの機能が標準で組み込まれ、バッチ処理だけでなくストリーミング処理や対話的な処理にも対応できるため、さまざまなシーンのデータ分析を強力にサポートします。本書では、Sparkの基礎であるRDDのしくみ、Sparkを構成する各コンポーネントの機能を理解するところからはじめます。さらにSparkクラスタの構築と運用、構造化データを処理するためのDataFrame APIとSpark SQL、ストリーミング処理のためのSpark Streaming、機械学習ライブラリMLlib、グラフ処理のためのGraphXの各コンポーネントの実践的な利用方法を基礎から徹底的に解説します。

目次

第1章 Sparkの基礎
第2章 Sparkの導入
第3章 RDD
第4章 クラスタ構築と運用
第5章 DataFrameとSpark SQL
第6章 Spark Streaming
第7章 MLlib
第8章 GraphX
Appendix YARN

著者等紹介

下田倫大[シモダノリヒロ]
株式会社ブレインパッドに所属。SNS企業にてHadoopを用いたソーシャルグラフの解析やレコメンドエンジン開発、広告商品の開発を行う。その過程でマーケティングデータの活用に興味を持ち2013年8月ブレインパッドに入社。同社が開発するプライベートDMP「Rtoaster」の外部DSP/DMP連携や、運用型広告最適化ツール「L2Mixer」の開発を担当。2015年7月より、プロダクトにとらわれず同社のビジネスを技術的側面からサポートする業務に従事している

師岡一成[モロオカカズシゲ]
株式会社ブレインパッドに所属。新卒入社したSIerで主に小売・流通業の基幹システムの構築に携わる。Hadoopやデータ分析に興味を持ち2012年に株式会社ブレインパッドに入社。Hadoopを用いたログ解析システムや、プライベートDMP「Rtoaster」の広告連携・セグメンテーションツールの開発を担当。現在は全社的な技術支援業務を行っている

今井雄太[イマイユウタ]
Hortonworksに所属。2011年に広告配信システムのレポート作成をHadoopを使ってみたのがビッグデータエコシステムとの出会い。2012年から約3年、AWSのソリューションアーキテクトとしてAmazon Elastic MapReduceやAmazon Kinesis、Amazon DynamoDBなどを主な担当。ゲームや広告のワークロードで必要となる分析や集計などをAWS上でいかに快適に実現するかというテーマのもとに活動。2015年にビッグデータつながりでHortonworksに転職、引き続きHadoopやSparkをより便利に利用するためのサービスを仕事にしている

石川有[イシカワユウ]
株式会社リクルートテクノロジーズアドバンスドテクノロジーラボに所属。株式会社ミクシィ在籍時にHadoopやHiveなどの分散処理システムに興味を持ち、分析基盤構築からアプリケーション設計、データサイエンス業務まで幅広くこなす。現在は、Apache Sparkの特に機械学習コンポーネントMLlibの開発に従事

田中裕一[タナカユウイチ]
日本IBMに所属。Web系・広告系企業にて、Hadoop/Spark/KafkaなどHadoopエコシステムを利用した広告システム(DMP)・行動分析基盤・レコメンド基盤の全体アーキテクチャ設計やプログラミング、最適化、行動解析を担当。Spark/Hadoopエコシステムを筆頭にOSSを組み合わせた大規模なアーキテクチャの設計に従事。2016年にSpark/Hadoopを多様な業種に広げるため、活動の場をIBMに移す(本データはこの書籍が刊行された当時に掲載されていたものです)
※書籍に掲載されている著者及び編者、訳者、監修者、イラストレーターなどの紹介情報です。

感想・レビュー

※以下の感想・レビューは、株式会社ブックウォーカーの提供する「読書メーター」によるものです。

okumin

0
機械学習は文系には難しい。2016/07/19

toiwata

0
RDDはimmutableである。commitしたら中身が変わっているRDBMSのOLTPとは考え方が違う。ジョブはあるがトランザクションはない。RDDをクラスタに投入してRDDを作るという目的であれば、クラスタはサービスとして見えれば良い。オンプレミスでクラスタを構築運用する難易度が上がる理由がまた増えると思った。2016/05/22

ぴよぴよ

0
Sparkの大よその全体像は理解できたという感じです。2時間くらいで、ざーっと目を通しました。実際に実装する際には、本著を読みながら使う感じでしょうか。2018/01/23

外部のウェブサイトに移動します

よろしければ下記URLをクリックしてください。

https://bookmeter.com/books/10910805
  • ご注意事項

    ご注意
    リンク先のウェブサイトは、株式会社ブックウォーカーの提供する「読書メーター」のページで、紀伊國屋書店のウェブサイトではなく、紀伊國屋書店の管理下にはないものです。
    この告知で掲載しているウェブサイトのアドレスについては、当ページ作成時点のものです。ウェブサイトのアドレスについては廃止や変更されることがあります。
    最新のアドレスについては、お客様ご自身でご確認ください。
    リンク先のウェブサイトについては、「株式会社ブックウォーカー」にご確認ください。