出版社内容情報
大規模なデータシステムの基礎となるアルゴリズム的要素を理解し、スケール可能なアプリケーションを構築するためのガイドブックです。豊富なイラストでわかりやすく解説します!
確率的データ構造を使用してデータ保存のスペースを節約する方法、ストリーミングデータの処理、ディスク上のデータの操作、データベースシステムにおけるパフォーマンスのトレードオフの理解など、大規模スケールのアプリケーション構築におけるさまざまなアルゴリズム的側面をカバーしています。
[対象読者]
基本的なデータ構造とアルゴリズムを理解している読者を対象としています。各章は伝統的な解決策を示した後、なぜそれが大規模データの場面で機能しないのかを解説しています。
・プログラミングの知識と、確率論の基本を身につけている方
・Pythonや擬似コードを理解する知識がある方。
[構成]
本書は11章にわたり、3つのパートで構成されています。第1部は確率的で簡潔なデータ構造について、第2部はストリーミングデータ構造とアルゴリズムについて、そして第3部は外部記憶データ構造とアルゴリズムについてです。
1章 はじめに
第1部 ハッシュベースのスケッチ
2章 ハッシュテーブルと現代のハッシングについての概説
3章 近似的なデータの存在判定:ブルームフィルターと商フィルター
4章 頻度推定とカウントミンスケッチ
5章 カーディナリティー推定とハイパーログログ
第2部 リアルタイム分析
6章 ストリーミングデータの統合と応用
7章 データストリームからのサンプリング
8章 データストリーム上の近似分位数
第3部 データベースと外部記憶アルゴリズムのためのデータ構造
9章 外部記憶モデルの紹介
10章 データベースのためのデータ構造:B木、Bε木、LSM木
11章 外部メモリによるソート
内容説明
大規模データシステムの基礎アルゴリズムを豊富な図解で理解!
目次
第1部 ハッシュベースのスケッチ(ハッシュテーブルと現代のハッシュ法についての概説;近似的なデータの存在判定:ブルームフィルターと商フィルター;頻度推定とカウントミンスケッチ ほか)
第2部 リアルタイム分析(ストリーミングデータの統合と応用;データストリームからのサンプリング;データストリーム上の近似分位数)
第3部 データベースと外部記憶アルゴリズムのためのデータ構造(外部記憶モデルの紹介;データベースのためのデータ構造:B木、Bε木、LSM木;外部メモリーによるソート)
著者等紹介
Medjedovic,Dzejla[MEDJEDOVIC,DZEJLA] [Medjedovic,Dzejla]
デジェラ・メジェドヴィッチ。ニューヨーク州立大学ストーニーブルック校。応用アルゴリズム学で博士号を取得。大規模データのアルゴリズムに関する多くのプロジェクトに取り組む。現在Social Explorer,Inc.データ部門のVice President
Tahirovic,Emin[TAHIROVIC,EMIN] [Tahirovic,Emin]
エミン・タヒロヴィッチ。ペンシルベニア大学。生物統計学で博士号を取得。統計方法論と理論計算機科学を理解し、現在HAProxy Technologiesのシニアデータサイエンティスト
Dedovic,Ines[DEDOVIC,INES] [Dedovic,Ines]
イネス・デドヴィッチ。ドイツアーヘン工科大学。イメージング・コンピュータビジョン分野で博士号を取得。10年以上にわたりイラストレーター、コミックアーティストとしても活動。現在Jonas & Redmannのソフトウェア開発者
岡田佑一[オカダユウイチ]
ヒューリスティック系のプログラミングコンテストに好んで参加するプログラマー。小さな学習塾をひっそりと経営している。2020年より関西大学大学院総合情報学研究科の博士課程後期に在籍し、SNSに関する研究や発達スクリーニング検査に関する研究に注力している(本データはこの書籍が刊行された当時に掲載されていたものです)
※書籍に掲載されている著者及び編者、訳者、監修者、イラストレーターなどの紹介情報です。