出版社内容情報
データの基礎知識とプログラミング技術、代表的なラインセンス/著作権を交えつつWebデータを解説。
欲しいデータを手に入れる。―インターネットを1つの巨大なデータベースとして使おう。
本書の目的は、インターネットを「1つの巨大なデータベース」として扱い、「Webデータ」として活用できるようになることです。
Web上のデータを使用する上での基礎知識を解説し、インターネットを1つの巨大なデータベースとして扱うための技術を紹介します。Webスクレイピングはその代表的な技術ですが、より簡単な方法もありますのでそちらも紹介します。データの基礎知識やプログラミング技術について、代表的なライセンスや著作権を交えながら語り尽くします。
「Part 1: Webスクレイピングを試す」でLibraHack 事件の概要と論点、Webデータ活用の注意点を紹介。
Pythonを使ったWebスクレイピングを実際に試します。
「Part 2:データの基礎知識を理解する」で、データの定義や標準的なデータ形式、保存方法を紹介。
データの入手・整形にはプログラミング技術が少なからず必要ですので、Pythonの書き方も簡単に記載します。
「Part 3:Webデータを入手する」で、Webデータの種類別に入手方法や注意事項を紹介。
オープンデータ・LOD・WebAPI・Webスクレイピング代行サービス・Webスクレイピングの5つのデータの技術的と
法律的な事に触れていきます。
「Part 4:Webデータを整形する」で、入手したWebデータを整形する方法を紹介。
文字コード変換、データ形式を整え、欠測値やはずれ値に対応します
「Part 5:Webデータの入手・整形を実践する」で、Webデータ収集の実例を紹介。
気温・株価・評価(商品評価)の3つの事例を紹介しています。
Part 1: Webスクレイピングを試す
1.1
内容説明
インターネットを“1つの巨大なデータベース”として扱うためのWebデータとその整形方法を、代表的なライセンス・著作権を交えながら解説。
目次
1 Webスクレイピングを試す(Webスクレイピングをはじめよう;Pythonをインストールする ほか)
2 データの基礎知識(データの基礎;データ形式 ほか)
3 Webデータの入手方法(レベル1:オープンデータ;レベル2:LOD ほか)
4 Webデータの整形法(レベル1:nkf(Network Kanji Filter)
レベル2:Excel+テキストエディター ほか)
5 Webデータの入手・整形を実践する(例1:気温データ‐売上を予測するには?;例2:株価データ‐銘柄の動向や関係性を知るには? ほか)
著者等紹介
nezuq[NEZUQ]
システムエンジニア。Webデータ活用の勉強会コミュニティ「東京スクラッパー」の開催者。LODチャレンジJapan2013ビジュアライゼーション部門最優秀賞を受賞(本データはこの書籍が刊行された当時に掲載されていたものです)
※書籍に掲載されている著者及び編者、訳者、監修者、イラストレーターなどの紹介情報です。