内容説明
※この商品は固定レイアウトで作成されており、タブレットなど大きいディスプレイを備えた端末で読むことに適しています。また、文字列のハイライトや検索、辞書の参照、引用などの機能が使用できません。
Kaggleで基礎から新規テーマまで、さまざまなデータ分析技術を習得できる!
著者は、3つのKaggleのカテゴリーでグランドマスターを獲得。著者がこれまでに培った技術をもとに、さまざまなデータ分析の手法を解説していきます。
Kaggleの基本機能の紹介から始まり、データ分析・可視化、地理情報や画像データセットの分析、テキスト分析、時系列データ処理、ディープフェイク動画検出など、分析対象のデータ種類を網羅的に取り上げます。
さらに、LangChainとLLMを使ったRAGシステム(特定情報の追加学習可能な生成AIシステム)の構築といった新規性の高いテーマも取り上げます。
Kaggleはデータサイエンス/機械学習プラットフォーム&コミュニティです。本書を手がかりに、Kaggleでデータ分析技術を幅広く習得しつつ、さまざまなコンペティションに挑戦し、自身のランクアップも推進しよう。
◎地理、画像、テキストなど、多様なデータセットの分析方法を学べる
◎グランドマスターが得た専門知識と上位ランキングへのヒントを紹介
◎生成AIアプリのプロトタイピングに役立つモデルの活用も解説
※本書は、『Developing Kaggle Notebooks: Pave your way to becoming a Kaggle Notebooks Grandmaster』の翻訳書です。
目次
表紙
口絵
本扉
サンプル・正誤表・免責など
まえがき
著者紹介、レビュー担当者紹介
謝辞
はじめに
本書の内容
目次
第1章 Kaggleとその基本機能
1.1 Kaggleプラットフォーム
1.2 Kaggle Competitions
1.3 Kaggle Datasets
1.4 Kaggle Code
1.5 Kaggle Discussions
1.6 Kaggle Learn
1.7 Kaggle Models
1.8 本章のまとめ
第2章 Kaggleノートブック作成の準備
2.1 Kaggle Notebooksとは何か/2.2 ノートブックを作成する方法
2.3 ノートブックの機能を探索する/2.3.1 基本的な機能
2.3.2 高度な機能
2.4 Kaggle APIを使ったノートブックの作成、更新、ダウンロード、監視
2.5 本章のまとめ
第3章 Kaggleという旅の始まり―タイタニック号事件の分析
3.1 タイタニック号の悲劇/3.2 データを検査する
3.2.1 データを理解する
3.2.2 データを分析する
3.3 単変量解析を行う
3.4 多変量解析を行う
3.5 乗客の名前から意味のある情報を抽出する
3.6 複数のプロットを表示するダッシュボードを作成する
3.7 ベースラインモデルを構築する
3.8 本章のまとめ
3.9 参考資料
第4章 単変量/二変量/地理空間分析の方法―パブとスターバックス
4.1 イギリスのパブ/4.1.1 データ品質のチェック
4.1.2 データ探索
4.2 世界中のスターバックス/4.2.1 予備的なデータ分析
4.2.2 単変量解析と二変量解析
4.2.3 地理空間分析
4.3 ロンドンのパブとスターバックス
4.3.1 データの前処理
4.3.2 地理空間分析
4.4 本章のまとめ
4.5 参考資料
第5章 データ分析に基づくストーリーと仮説検証―発展途上国向け小口融資とMeta Kaggle
5.1 Data Science for Good: Kiva Crowdfundingコンペティション
5.2 Kivaコンペティションの分析:データが増えるほど、洞察は深まる/5.2.1 借り手の人口統計を理解する
5.2.2 MPIと他の要因との相関を探る
5.2.3 レーダーチャートで貧困の次元を可視化する
5.2.4 最後に/5.3 データセットごとに異なるストーリーを伝える
5.3.1 プロット/5.3.2 実際の推移
5.3.3 結論
5.4 本章のまとめ/5.5 参考資料
第6章 画像データ分析―ミツバチの亜種を予測
6.1 データ探索/6.1.1 データ品質をチェックする
6.1.2 画像データを探索する
6.1.3 場所
6.1.4 日付と時刻
6.1.5 亜種
6.1.6 健康状態
6.1.7 その他/6.1.8 結論
6.2 亜種の分類/6.2.1 データを分割する
6.2.2 データ拡張
6.2.3 ベースラインモデルを構築する
6.2.4 モデルを反復的に改善する
6.3 本章のまとめ
6.4 参考資料
第7章 テキスト分析―単語埋め込み、双方向LSTM、Transformer
7.1 データ探索
7.1.1 目的変数/7.1.2 センシティブな特徴量
7.2 コメントテキストを分析する
7.2.1 トピックモデリング
7.2.2 固有表現抽出(NER)
7.2.3 品詞タグ付け
7.3 モデルを準備する
7.3.1 語彙を構築する
7.3.2 埋め込みインデックスと埋め込み行列
7.3.3 語彙のカバレッジを確認する
7.3.4 語彙のカバレッジを反復的に改善する
7.4 ベースラインモデルを構築する
7.5 Transformerベースのソリューション
7.6 本章のまとめ/7.7 参考資料
第8章 音響信号の分析による模擬地震の予測
8.1 LANL Earthquake Predictionコンペティション/8.2 信号データのフォーマット
8.3 コンペティションデータを探索する
8.3.1 ソリューションのアプローチ
8.4 特徴量エンジニアリング/8.4.1 トレンド特徴量と従来のSTA/LTA
8.4.2 FFTベースの特徴量
8.4.3 集約関数を使って計算された特徴量
8.4.4 ヒルベルト変換とハン窓を使って計算された特徴量
8.4.5 移動平均に基づく特徴量
8.5 ベースラインモデルを構築する
8.6 本章のまとめ/8.7 参考資料
第9章 ディープフェイク動画を探す
9.1 Deepfake Detection Challengeコンペティション
9.2 コンペティションのユーティリティスクリプト/9.2.1 動画データを可視化するユーティリティスクリプト
9.2.2 顔と体を検出するユーティリティスクリプト
9.3 メタデータを探索する
9.4 動画データを探索する/9.4.1 サンプルファイルを可視化する
9.4.2 物体検出を実行する
9.5 本章のまとめ
9.6 参考資料
第10章 Kaggleモデルで生成AIの能力を引き出す
10.1 Kaggle Models
10.2 基盤モデルのプロンプトを作成する/10.2.1 モデルの評価とテスト
10.2.2 モデルの量子化
10.3 LangChainを使ってマルチタスクアプリケーションを構築する
10.4 Kaggle Modelsを使ったコード生成
10.5 RAGシステムを作成する
10.6 本章のまとめ
10.7 参考資料
第11章 旅の終わり―存在感を保ち、トップであり続けるために
11.1 成功したGrandmasterから学ぶ
11.2 ノートブックの定期的な見直しと改善
11.3 他のユーザーの貢献を評価し、あなたならではのタッチを加える
11.4 スピードが命:完璧になるまで待たない/11.5 寛大であれ:知識を共有する
11.6 コンフォートゾーンから飛び出す
11.7 感謝の気持ちを持つ/11.8 本章のまとめ
11.9 参考資料
索引
翻訳書プロフィール
奥付
-
- 電子書籍
- LDK 2023年10月号 LDK
-
- 電子書籍
- 佐助さんと夢之工房の人たち 分冊版 13
-
- 電子書籍
- 双狼の贄 プラチナ文庫
-
- 電子書籍
- 【音声DL付】タイ語リスニング
-
- 電子書籍
- 嫌いになれなくて【分冊】 3巻 ハーレ…



