出版社内容情報
Delta Lakeで築く、次世代データ基盤の教科書!
本書は、データエンジニア、データサイエンティスト、データアナリスト向けに、Delta Lakeを活用して信頼性の高いデータレイクハウスを本番環境で運用するための実践的なガイドです。ベストプラクティス、最適化技術、実際のシナリオが含まれており、大規模なDelta Lakeベースのシステムを導入・維持する際に直面する課題を乗り越える方法を詳しく解説した実践的なガイドブックです。
【目次】
内容説明
データレイクは膨大なデータを柔軟に扱える一方で、スキーマ管理の複雑さや性能の低下、ガバナンスの難しさなど多くの課題を抱えてきました。本書は、これらの問題を解決するデータレイクハウスアーキテクチャの全貌を解き明かします。オープンソースのDelta Lakeを軸に、ACIDトランザクション、タイムトラベル、スキーマ進化、データ品質管理といった重要機能をわかりやすく解説します。さらに、Apache Sparkとの統合、BIやAI/MLへの応用、運用上のベストプラクティスまで、実践的な知識を網羅しています。データエンジニア、アーキテクト、アナリストにとって必携であり、モダンなデータ基盤を設計・構築する上での指針となる1冊です。
目次
1章 Delta Lakeにおけるレイクハウスフォーマット
2章 Delta Lakeを導入する
3章 Delta Lakeの操作
4章 Delta Lakeエコシステムの詳細解説
5章 Delta Lakeのメンテナンス
6章 Delta Lakeを利用したネイティブアプリケーションの構築
7章 Delta Lakeへのストリーミングの入出力
8章 高度な機能
9章 レイクハウスのアーキテクチャ設計
10章 パフォーマンスチューニング:Delta Lakeでのデータパイプライン最適化
11章 成功するデザインパターン
12章 レイクハウスのガバナンスとセキュリティの基礎
13章 メタデータ管理、データフロー、リネージ
14章 Delta Sharingプロトコルでのデータ共有
著者等紹介
リー,デニー[リー,デニー] [Lee,Denny]
Unity Catalog、Apache Spark、MLflowのコントリビュータで、Delta Lakeのメンテナ、Databricksのプリンシパルデベロッパーアドボケート。インターネット規模のデータプラットフォームや予測分析・AIシステムの開発者としての豊富な経験を持つ、実践的な分散システムおよびデータサイエンスの実践的エンジニアである。現在の技術的な専門分野は、AI、分散システム、Unity Catalog、Delta Lake、Apache Spark、深層学者、機械学習、ゲノミクスなどの技術に注力している
ウェントリング,トリステン[ウェントリング,トリステン] [Wentling,Tristen]
Databricksのソリューションアーキテクトで、小売業界の顧客を中心に活動している。元データサイエンティストで、ストリーミングアプリケーションの本番化に関するベストプラクティスやeコマース向けの生成AIアプリケーションの構築などのブログ記事も執筆している。技術的な仕事以外では、読書や海水浴を楽しんでいる。数学の修士号と応用数学の理学士号を持つ
ヘインズ,スコット[ヘインズ,スコット] [Haines,Scott]
DatabricksのBeacon(Databricksが認定したコミュニティエキスパートや技術的リーダーを指す呼称)であり、15年以上データ、分散システム、リアルタイムアプリケーションに携わってきた。Yahoo!にてデータに関するキャリアを開始し、Twilio、そして最近ではNikeに在籍した。彼はData Circusというコンサルティング会社を経営している
バブ,プラシャンス[バブ,プラシャンス] [Babu,Prashanth]
Databricks認定デベロッパーであり、リファレンスアーキテクチャ、ベストプラクティス、フレームワーク、MVP、プロトタイプを構築することで、顧客のユースケースの設計と実装を支援し、顧客がデータを価値に変えることを成功に導く
長谷川亮[ハセガワリョウ]
大手銀行、スタートアップ、外資系IT、そして複数の戦略コンサルティングファームにて、10年以上にわたりクラウド、オープンソース、ビッグデータ領域に従事。特にデータチーム構築やMLOpsを専門とする。2021年よりDatabricks Japanにてプロフェッショナルサービスおよびトレーニングサービスの立ち上げをリード。現在は複数のスタートアップでAI Nativeな組織構築、AI/SaaSプロダクト開発に携わりながら、日本国内におけるレイクハウスとData+AIガバナンスの導入を推進中
倉光怜[クラミツサトシ]
2022年にDatabrickfに入社。自動車・製造業界、通信業界を担当するソリューションアーキテクトのマネージャー。これまで、SIer、AWSで自動車業界を中心にクラウドの導入を技術支援。Databricks Japan入社後もコネクテッドカー・自動運転、工場IoTといったビッグデータのアーキテクチャ支援やデータ・AIの活用を推進
小谷尚太郎[コタニショウタロウ]
2022年にDatabricks入社、現在シニアソリューションアーキテクト。Databricksパートナーの技術支援に従事している。前職では外資の監査法人系コンサルティングファームにて、データサイエンティストとして機械学習を用いた会計監査の高度化支援やR&D業務、ソリューション開発に携わっていた。早稲田大学大学院修了
竹下俊一郎[タケシタシュンイチロウ]
2020年にDatabricksに入社。金融、小売業界を担当するソリューションアーキテクトでチームマネージャー。これまで一貫してビッグデータ・アナリティクス導入支援やデータガバナンス実装・データ活用推進に従事。レイクハウスこそが我が国のデータ+AI文化を変えると本気で思っている人間のつもり(本データはこの書籍が刊行された当時に掲載されていたものです)
※書籍に掲載されている著者及び編者、訳者、監修者、イラストレーターなどの紹介情報です。



