大規模データのマイニング

個数:

大規模データのマイニング

  • ウェブストアに1冊在庫がございます。(2025年07月27日 10時19分現在)
    通常、ご注文翌日~2日後に出荷されます。
  • 出荷予定日とご注意事項
    ※上記を必ずご確認ください

    【ご注意事項】 ※必ずお読みください
    ◆在庫数は刻々と変動しており、ご注文手続き中に減ることもございます。
    ◆在庫数以上の数量をご注文の場合には、超過した分はお取り寄せとなり日数がかかります。入手できないこともございます。
    ◆事情により出荷が遅れる場合がございます。
    ◆お届け日のご指定は承っておりません。
    ◆「帯」はお付けできない場合がございます。
    ◆画像の表紙や帯等は実物とは異なる場合があります。
    ◆特に表記のない限り特典はありません。
    ◆別冊解答などの付属品はお付けできない場合がございます。
  • ●3Dセキュア導入とクレジットカードによるお支払いについて
    ●店舗受取サービス(送料無料)もご利用いただけます。
    ご注文ステップ「お届け先情報設定」にてお受け取り店をご指定ください。尚、受取店舗限定の特典はお付けできません。詳細はこちら
  • サイズ B5判/ページ数 372p/高さ 27cm
  • 商品コード 9784320123755
  • NDC分類 007.6
  • Cコード C3041

出版社内容情報

ウェブやインターネットコマースの隆盛によって,とてつもなく巨大なデータセットが出現し,そして,データマイニングによってそれらから情報が抽出されている。
巨大なデータに対するマイニングにおいては,従来から知られているアルゴリズムがそのままでは機能しないことが多い。巨大なデータを扱う上でこれまでとは違った処理戦略や技法が必要となる。

 本書はデータマイニングにおいて重要な問題の解決に使われてきており,さらに巨大なデータセットに対しても使用できる実用的なアルゴリズムを,データベースやウェブ技術の分野で著名な原著者が解説する。

 まず,データマイニングの本質や,データマイニングがどのように扱われているかを概観する。次に,今後非常に大量のデータの解析を行う際に,クラウドコンピューティングとともに重要視されると考えられ,この後の章の議論に必須のものとなるマップレデュースを解説する。その後,類似するアイテムの検索で用いられるシングリング,ミンハッシュや局所性鋭敏型ハッシュ(LSH)を説明する。その次に,すぐに反応しないと消えてしまう,ストリーム形式のデータについて考え,そのあとで検索エンジンに用いられているPageRankという計算手法を扱う。それ以降では,頻出するアイテムセットやクラスターを見つける問題を扱い,最後には,現在のオンライン商店の活動で必須の,推薦システムとオンライン広告という,二つの話題を扱う。

 全体として初心者にもわかりやすく詳説されており,大規模なデータに立ち向かう学生のみならず,データサイエンティストを始めとした実務家にも必携の書となろう。

第1章 データマイニング
1.1 データマイニングとは何か?
1.2 データマイニングの統計的な限界
1.3 知っておくと役に立つこと
1.4 本書の概略
1.5 第1章の要約
1.6 第1章の参照文献

第2章 大規模ファイルシステムとマップレデュース
2.1 分散ファイルシステム
2.2 マップレデュース
2.3 マップレデュースを用いたアルゴリズム
2.4 マップレデュースへの拡張
2.5 クラスター計算の効率
2.6 第2章の要約
2.7 第2章の参照文献

第3章 類似したアイテムを探す
3.1 近傍探索の応用
3.2 文書のシングリング
3.3 類似度を保持した集合の要約
3.4 文書の局所性鋭敏型ハッシング
3.5 距離尺度
3.6 局所性鋭敏型関数の理論
3.7 その他の距離尺度のためのLSH族
3.8 局所性鋭敏型ハッシュ法の応用
3.9 高い類似度に対する手法
3.10 第3章の要約
3.11 第3章の参照文献

第4章 データストリームのマイニング
4.1 ストリームデータモデル
4.2 ストリームデータのサンプリング
4.3 ストリームをフィルタリングする
4.4 ストリーム中の異なる要素を数える
4.5 モーメントを推定する
4.6 窓に含まれる1の数をカウントする
4.7 減衰する窓
4.8 第4章の要約
4.9 第4章の参照文献

第5章 リンク解析
5.1 PageRank
5.2 PageRankの効率の良い計算
5.3 話題に敏感なPageRank
5.4 リンクスパム
5.5 ハブとオーソリティー
5.6 第5章の要約
5.7 第5章の参照文献

第6章 頻出アイテムセット
6.1 マーケットバスケットモデル
6.2 マーケットバスケットとアプリオリアルゴリズム
6.3 主記憶上でより大きなデータセットを扱う
6.4 パスの回数が限られているアルゴリズム
6.5 ストリームで頻出アイテムを数える
6.6 第6章の要約
6.7 第6章の参照文献

第7章 クラスタリング
7.1 クラスタリング技法の入門
7.2 階層型クラスタリング
7.3 K平均アルゴリズム
7.4 CUREアルゴリズム
7.5 非ユークリッド空間でのクラスタリング
7.6 ストリームに対するクラスタリングと並列化
7.7 第7章の要約
7.8 第7章の参照文献

第8章 ウェブ上での宣伝
8.1 オンライン広告の課題
8.2 オンラインアルゴリズム
8.3 マッチング問題
8.4 アドワーズ問題
8.5 アドワーズの実装
8.6 第8章の要約
8.7 第8章の参照文献

第9章 推薦システム
9.1 推薦システムの1つのモデル
9.2 内容にもとづいた推薦
9.3 協調フィルタリング
9.4 次元の削減
9.5 Netflixチャレンジ
9.6 第9章の要約
9.7 第9章の参照文献

目次

1 データマイニング
2 大規模ファイルシステムとマップレデュース
3 類似したアイテムを探す
4 データストリームのマイニング
5 リンク解析
6 頻出アイテムセット
7 クラスタリング
8 ウェブ上での宣伝
9 推薦システム

著者等紹介

岩野和生[イワノカズオ]
1975年、東京大学理学部数学科卒業。1987年、米国プリンストン大学コンピューターサイエンス学科Ph.D.取得。1975年から2012年まで、日本アイ・ビー・エム株式会社、2012年より三菱商事株式会社勤務

浦本直彦[ウラモトナオヒコ]
1990年、九州大学卒業。同年より日本アイ・ビー・エム(株)東京基礎研究所勤務。2000年、九州大学より博士(工学)取得。2000‐2005年、国立情報学研究所客員助教授兼務。現在、情報セキュリティ大学院大学連携教授を兼務している(本データはこの書籍が刊行された当時に掲載されていたものです)
※書籍に掲載されている著者及び編者、訳者、監修者、イラストレーターなどの紹介情報です。

最近チェックした商品