出版社内容情報
Apache Icebergは、ストレージ上のファイル群を抽象化し分散クエリエンジンで扱うためのオープンな「テーブルフォーマット」です。本書では、データレイク構築に関する基本的な考え方やIcebergを使うことのメリットといった基本から、Sparkなどの各種分散クエリエンジンにおける実践的な活用方法、そして実運用のためのノウハウまで、豊富なハンズオンとともに解説。次世代のデータ基盤の構築・運用に関わるエンジニア必携の一冊です。
【目次】
■[第1部]Apache Icebergの基本
■■第1章:データレイクの課題とApache Iceberg
・Icebergというテーブルフォーマット
・データレイクのコンセプト
・データレイクの構成要素
・Iceberg登場以前のデータレイクの課題
・Icebergによるデータレイクの課題解決
・データ基盤におけるIcebergの役割
・Icebergを導入する際の注意点
■■第2章:Apache Icebergの仕組みと機能
・「Iceberg」が指すもの
・Icebergテーブルの構造
・代表的なクエリのライフサイクル
・タイムトラベルとロールバックによるデータ復元
・トランザクション分離レベルと同時実行制御
・スキーマ定義
・ソート順の進化
・Icebergにおけるパーティショニング
・ビュー
・テーブルフォーマットバージョン3
■■第3章:Icebergカタログとストレージ
・「カタログ」と「ストレージ」という重要概念
・さまざまなIcebergカタログ
・Icebergのストレージ
・Icebergカタログおよびストレージ実装の設定
■[第2部]分散クエリエンジンでの利用
■■第4章:Apache Spark
・Apache Sparkの概要
・Sparkでデータ処理を実行する
・Icebergの利用を開始する
・Icebergを利用する際のパラメータ設定
・基本的なIceberg機能の利用
・高度なIceberg機能の利用
・ストリーミングでの利用
■■第5章:Apache Flink
・Apache Flinkの概要
・Flinkでデータ処理を実行する
・Icebergの利用を開始する
・基本的なIceberg機能の利用
・高度なIceberg機能の利用
■■第6章:Trino
・Trinoの概要
・Trinoでデータ処理を実行する
・Icebergの利用を開始する
・DDL(Data Definition Language)
・DML(Data Manipulation Language)
■■第7章:Apache Hive
・Apache Hiveの概要
・Hiveでデータ処理を実行する
・Icebergの利用を開始する
・Hiveで実行できるIcebergの機能
・DDL(Data Definition Language)
・DML(Data Man