Informatics&IDEA<br> データを集める技術―最速で作るスクレイピング&クローラー

個数:
電子版価格
¥1,320
  • 電子版あり

Informatics&IDEA
データを集める技術―最速で作るスクレイピング&クローラー

  • 提携先に在庫がございます【僅少】
    通常、5~7日程度で出荷されます。
    ※納期遅延や、在庫切れで解約させていただく場合もございます。
    (※複数冊ご注文はお取り寄せとなります)
  • 出荷予定日とご注意事項
    ※上記を必ずご確認ください

    【出荷予定日】
    通常、5~7日程度で出荷されます。

    【ご注意事項】 ※必ずお読みください
    ◆在庫状況は刻々と変化しており、ご注文手続き中やご注文後に在庫切れとなることがございます。
    ◆出荷予定日は確定ではなく、表示よりも出荷が遅れる場合が一部にございます。
    ◆複数冊をご注文の場合には全冊がお取り寄せとなります。お取り寄せの場合の納期や入手可否についてはこちらをご参照ください。
    ◆お届け日のご指定は承っておりません。
    ◆「帯」はお付けできない場合がございます。
    ◆画像の表紙や帯等は実物とは異なる場合があります。
    ◆特に表記のない限り特典はありません。
    ◆別冊解答などの付属品はお付けできない場合がございます。
  • ●3Dセキュア導入とクレジットカードによるお支払いについて
    ●店舗受取サービス(送料無料)もご利用いただけます。
    ご注文ステップ「お届け先情報設定」にてお受け取り店をご指定ください。尚、受取店舗限定の特典はお付けできません。詳細はこちら
  • サイズ A5判/ページ数 255p/高さ 21cm
  • 商品コード 9784797389029
  • NDC分類 547.48
  • Cコード C0055

出版社内容情報

インターネット・SNSから思い通りに情報を収集するための知識と実例をわかりやすく解説

ExcelやGoogleスプレッドーシート、APIなどを使ってクローラーをプログラミンし、簡単な操作で効率的にデータを集める手法を解説していきます。
企業情報、株価情報、Amazonの新刊情報、商品の口コミデータ、Googleの検索順位の履歴、Twitterから特定のキーワードの発見、iTunes/Google Playのアプリランキングなど、さまざまな役立つデータを収集していきます。



Chapter1 スクレイピングとクローラーで効率的にデータを集めていく

1-1 データはWeb上に集まる
Web上に存在するデータの種類
本書が対象とするデータ

1-2 効率的にデータを収集するために行うこと
データ収集の3つのステップ

1-3 どうすれば自動化できるのか?
スクレイピングとクローラー
半自動化プログラムでできること
完全自動化プログラムでできること
本書の進め方

1-4 Webサイトからデータを集める際の注意事項
収集したデータの取り扱いと著作権
Webサイトのリソース圧迫と業務妨害
クローラーとAPI

Chapter2 Excelとブラウザを連携してWebページからデータを収集する

2-2 Excel VBAでWebからデータを収集する
Excelでのデータ収集テクニック
ExcelでVBAが使えるようにする設定
データを収集するためのプログラム

2-2 VBAでIEを操作する仕組み
宣言部分
VBAの関数の宣言
IEの操作

2-3 取得したHTMLから要素を抽出する仕組み
HTMLの構造
HTMLから要素を抜き出すプログラム

2-4 簡単な方法で要素を特定する
ChromeでXPathを抽出する方法
FirefoxでXPathの抽出する方法

2-5 WEBSERVICE関数とFILTERXML関数によるデータ収集
WEBSERVICE関数によるデータ収集
FILTERXML関数によるデータ収集

Chapter3 Googleスプレッドシートを利用して自動的にデータを収集する

3-1 GoogleスプレッドシートとGoogle Apps Scriptを準備する
Googleスプレッドシートとは
Google Apps Scriptとは
関数とクラス

3-2 ImportXML関数を使ってWebからデータを収集する
ImportXML関数の概要
株価データの取得方法
セルの値を利用した取得方法

3-3 Google Apps Scriptを利用してデータを収集する
Google Apps Scriptの使い方
Google Apps Scriptによるスクレイピング
Google Apps Scriptの実行

3-4 指定した時間に定期的にデータを収集する
Google Apps Scriptのトリガー
トリガーの設定方法

Chapter4 スクレイピング専用サービスを利用して手軽にWebからデータを収集する

4-1 import.ioを利用してWebからデータを収集する
import.ioのサービス概要
import.ioの利用方法

4-2 import.ioでスクレイピングを実行する
import.ioへのサインアップ
データの自動抽出
抽出したデータの取得方法
取得する要素の任意指定
APIを使ったデータ抽出

4-3 収集したデータをシート上に保存する
Googleスプレッドシートとの連携
Google Apps Scriptとの連携
Excelとの連携

Chapter5アプリケーションを利用してTwitterからデータを収集する

5-1 アプリを利用して収集した結果を通知する
通知を受け取るためのアプリケーション
IFTTTの概要
Slackの概要
myThingsの概要

5-2 IFTTTを使ってTwitter上でエゴサーチを行う
IFTTTの会員登録
モバイルアプリのインストール
Twitter検索のレシピ作成

5-3 Slackを利用して定期的にRSS情報を収集する
Slackの会員登録
RSSフィードの収集
モバイルアプリからの利用

5-4 myThingsを使ってTwitter上でエゴサーチを行う
会員登録とモバイルアプリのインストール
Twitter検索の組み合わせの作成

Chapter6 ターゲットを絞り込んで、さまざまなデータを自在に収集する

6-1 会社・商品に関する情報を収集する
特定のキーワードを収集する目的
収集・保存・通知方法

6-2 Webから特定の「キーワード」に関する情報を収集・蓄積する
Googleアラートの設定
IFTTTの設定
結果の確認

6-3 Twitterから特定の「キーワード」を含むツイートを収集・蓄積する
IFTTTの設定
結果の確認

6-4 App StoreからiOSアプリのランキングを収集する
ランキングのRSSフィード
ランキングの収集
結果を日付別シートに保存
指定した時間に毎日実行する

6-5 Google PlayからAndroidアプリのランキングを取得する
import.ioを使ったデータ収集
結果をGoogleスプレッドシートに保存
日本語ランキングの取得

6-6 Amazonのカスタマーレビューを収集する
import.ioを利用した収集方法
Googleスプレッドシート+ImportXMLによる収集方法
Google Apps Scriptを利用した収集方法

6-7 上場企業の時価総額を収集する
銘柄コード一覧の取得
株価に関する情報の収集
時系列で株価データを収集

6-8 Amazonのセール情報を取得する
Amazonのほしい物リスト
ほしい物リストから商品を取得(Excel版)
ほしい物リストから商品を取得する(Google Apps Script版)
Amazonの割引率が高い商品を探す
商品の割引率とポイント還元率の取得(Excel版)
商品の割引率とポイント還元率の取得(Google Apps Script版)

Chapter7 データを収集した後の見せ方と使い方のヒント

7-1 クローラー/スクレイピング開発と関連技術
認証が必要なページからのデータ収集
大規模

佐々木 拓郎[ササキ タクロウ]
大学卒業以来、一貫してWeb系のシステム開発に従事。企画から設計開発、運用まで全ての工程に関わる。またシリコンバレー勤務時代には、オープンソースのR&Dや海外プロダクトの日本導入などに従事。最近の主な活動は、AWS事業の推進とモバイルアプリ開発。どうすれば楽に過ごせるかを模索するために、忙しい日々を送っている。著書:『Rubyによるクローラー開発技法』『AmazonWebServicesパターン別構築・運用ガイド』『AmazonWebServicesクロウドネイティブ・アプリケーション開発技法』(SBクリエイティブ刊)

内容説明

本書は、簡単なプログラムやツールを自作し、WebサイトやSNSからさまざまなデータを収集する方法を解説するものです。「プログラム」という言葉を目にするだけで尻込みする方もいらっしゃることでしょう。しかし、本書で紹介するプログラムやツールは、パソコンの基本的な使い方が理解できれば、誰でも作れる簡単なものです。作り方も手順を追って丁寧に解説していきますので、安心してお読みいただければと思います。

目次

1 スクレイピングとクローラーで効率的にデータを集めていく
2 Excelとブラウザを連携してWebページからデータを収集する
3 Googleスプレッドシートを利用して自動的にデータを収集する
4 スクレイピング専用サービスを利用して手軽にWebからデータを収集する
5 アプリケーションを利用してTwitterからデータを収集する
6 ターゲットを絞り込んで、さまざまなデータを自在に収集する
7 データを収集した後の見せ方と使い方のヒント

著者等紹介

佐々木拓郎[ササキタクロウ]
大学卒業以来、一貫してWeb系のシステム開発に従事。企画から設計開発、運用まで全ての工程に関わる。またシリコンバレー勤務時代には、オープンソースのR&Dや海外プロダクトの日本導入などに従事。最近の主な活動は、AWS事業の推進とモバイルアプリ開発(本データはこの書籍が刊行された当時に掲載されていたものです)
※書籍に掲載されている著者及び編者、訳者、監修者、イラストレーターなどの紹介情報です。

感想・レビュー

※以下の感想・レビューは、株式会社ブックウォーカーの提供する「読書メーター」によるものです。

Thinking_sketch_book

13
★★★☆☆ 分かりやすくて良い。でも得るものは少なかった2017/05/26

𓆱

2
Excel と VBAを使った手法、Google Apps Scriptとgoogle spreadsheetを使った手法、IFTTTというWebサービスを使った手法、import.ioという有料サイトをつかった手法を虎毛ている。解析手法で参考になる点はあったが、正直あまり使える知識はなかった。2018/06/08

ほにょこ

2
★★★☆☆ サンプルコードのダウンロードができるサイトも書かれていて簡単に試すことができます。 これを参考にして、EXCEL VBAでKindle本の発売予定リストを取得するものを作ってみました。 EXCELで加工、編集ができるのでとっても便利です。 他にも様々な手法が紹介されていてためになります。 2017/02/13

しめじ

1
途中まで読みましたが、スクレイピングとクローラーについて浅く広く記載。スクレイピングとクローラーとは何かを知らない人向けに、触ってみようといった内容でした。2020/06/12

しんご

1
内容は具体的。自分用にはもう少し工夫が必要。 日々集めたい情報は何か?があんまり思い付かない、2017/08/18

外部のウェブサイトに移動します

よろしければ下記URLをクリックしてください。

https://bookmeter.com/books/11246934
  • ご注意事項

    ご注意
    リンク先のウェブサイトは、株式会社ブックウォーカーの提供する「読書メーター」のページで、紀伊國屋書店のウェブサイトではなく、紀伊國屋書店の管理下にはないものです。
    この告知で掲載しているウェブサイトのアドレスについては、当ページ作成時点のものです。ウェブサイトのアドレスについては廃止や変更されることがあります。
    最新のアドレスについては、お客様ご自身でご確認ください。
    リンク先のウェブサイトについては、「株式会社ブックウォーカー」にご確認ください。

最近チェックした商品