出版社内容情報
高い信頼性とハイパフォーマンスを両立するデータプラットフォームの新標準!
ビッグデータを最大限活用する仕組みと運用法を徹底解説
【本書の概要】
本書は、高い信頼性とハイパフォーマンスを両立する、OSSのストレージレイヤソフトウェアであるDelta Lakeの入門書です。セットアップから実際の操作手順、実行例まで、データ分析に携わる方が迷わずDelta Lakeを使いこなせるよう丁寧に解説を行います。
【本書で学べること】
・最新のデータ管理およびデータエンジニアリング手法
・ACIDトランザクションが大規模なデータレイクにどのように信頼性をもたらすのか
・データレイクに対してストリーミングジョブとバッチジョブを同時に実行する方法
・テーブルの削除、更新、マージ方法
・タイムトラベルを使用したロールバックによるデータバージョンの調査方法
・メダリオンアーキテクチャに従ったストリーミングデータ品質パイプラインの構築方法
【本書の対象読者】
・データ分析に携わる方
・Delta Lakeの基本事項、用語、始め方などを知りたい方
・最新のレイクハウスアーキテクチャの機能とメリットについて学びたいデータ担当者
・Apache Sparkの経験を持つデータ担当者
【目次】
Chapter 1 データアーキテクチャの進化
Chapter 2 Delta Lake入門
Chapter 3 Deltaテーブルの基本操作
Chapter 4 テーブルの削除、更新、マージ
Chapter 5 パフォーマンス・チューニング
Chapter 6 タイムトラベルの利用
Chapter 7 スキーマの取り扱い
Chapter 8 ストリーミングデータに対するオペレーション
Chapter 9 Delta Sharing
Chapter 10 Delta Lake上でのレイクハウス構築
※本書は『Delta Lake: Up and Running: Modern Data Lakehouse Architectures with Delta Lake』の邦訳です。
内容説明
高い信頼性とハイパフォーマンスを両立する、OSSのストレージレイヤソフトウェアであるDelta Lakeの入門書です。セットアップから実際の操作手順、実行例まで、データ分析に携わる方が迷わずDelta Lakeを使いこなせるよう丁寧に解説を行います
目次
1 データアーキテクチャの進化
2 Delta Lake入門
3 Deltaテーブルの基本操作
4 テーブルの削除、更新、マージ
5 パフォーマンス・チューニング
6 タイムトラベルの利用
7 スキーマの取り扱い
8 ストリーミングデータに対するオペレーション
9 Delta Sharing
10 Delta Lake上でのレイクハウス構築
著者等紹介
ヘレン,ベニー[ヘレン,ベニー] [Haelen,Bennie]
MicrosoftとDatabricksのパートナーであるInsight Digital Innovationのプリンシパルアーキテクト。様々な商用クラウドプラットフォームにおける最新のデータウェアハウス、機械学習、AI、IoTに注力。医療、公共部門、石油・ガス、金融など、様々なアプリケーション領域で数多くのData+AIプロジェクトを監督。また、Databricks、Spark Structured Streaming、Delta Lake、Microsoft Power BIを使用して様々なアプリケーションを設計・提供
デイビス,ダン[デイビス,ダン] [Davis,Dan]
クラウドデータアーキテクト。10年にわたり、データから分析的インサイトとビジネス価値を引き出してきた。最新のツールとテクノロジーを駆使し、オンプレミス、ハイブリッド、クラウド環境におけるエンタープライズ規模のデータ統合と分析をサポートするデータプラットフォーム、フレームワーク、プロセスの設計と提供を専門とする
長谷川亮[ハセガワリョウ]
2021年より、Databricksのプロフェッショナルサービスとトレーニングサービスの立上げを担当。これまでに多くのプロジェクトを日本で実施。それ以前は、複数の外資系戦略コンサルティングファームなどにて10年以上、アジャイル開発、ビッグデータ、MLOpsを活用したデータチームの強化に従事。現在は複数のスタートアップにて、LakehouseとData+AIガバナンスをベースにプロダクト開発に従事、趣味はお酒
倉光怜[クラミツサトシ]
2022年にDatabricksに入社。自動車・製造業界、通信業界を担当するソリューションアーキテクトのマネージャー。これまで、SIer、クラウドベンダーで自動車業界を中心に技術支援。Databricks入社後は特に、お客様のエンタープライズアーキテクチャやデータ・AIの活用を推進。トレーニングなど体を動かすことが大好き
竹下俊一郎[タケシタシュンイチロウ]
2020年にDatabricksに入社。金融、小売業界を担当するソリューションアーキテクトでチームマネージャー。これまで一貫してビッグデータ・アナリティクス導入支援やデータガバナンス実装・データ活用推進に従事。レイクハウスこそが我が国のData+AI文化を変えると本気で思っている人間のつもり
小谷尚太郎[コタニショウタロウ]
2022年にDatabricksに入社。データブリックスPartnerの技術支援に従事している。前職では外資の監査法人系コンサルティングファームにて、データサイエンティストとして機械学習術を用いた会計監査の高度化支援やR&D業務、ソリューション開発に携わっていた。早稲田大学大学院修了(本データはこの書籍が刊行された当時に掲載されていたものです)
※書籍に掲載されている著者及び編者、訳者、監修者、イラストレーターなどの紹介情報です。
-
- 和書
- 淳子のてっぺん