出版社内容情報
Webスクレイピングについての深い知識と広いテクニックで本当に欲しい情報を確実に取得する!
2019年の第2版発刊から約5年が経過し、生成AIの台頭で情報を得る方法も大きく変わりましたが、本当に欲しい情報を正しくピンポイントで得るためには、依然としてWebスクレイピングについての知識とスキルが必要です。本書では、インターネット上の膨大な情報の中から、生成AIや検索エンジンだけでは入手できない本当に必要な情報を入手する方法を、基礎からていねいに解説し、データの抽出、データの格納、データ収集後のクリーニング、さらには、JavaScript実行、OCRを含めた自然言語処理、並列処理などの高度なトピックに加えて法律面の解説など、プログラミングテクニックとテクノロジー全般だけでなく、問題に遭遇した際の対処法まで紹介します。
内容説明
Webスクレイピングとは、インターネットからデータを機械的に集め、必要な情報を抽出する技術のことです。2019年の第2版発刊から約5年が経過し、生成AIの台頭で情報を得る方法も大きく変わりましたが、本当に欲しい情報を正しくピンポイントで得るためには、依然としてWebスクレイピングについての知識とスキルが必要です。本書では、インターネット上の膨大な情報の中から、生成AIや検索エンジンだけでは集められない本当に必要な正しい情報を入手する方法を、基礎からていねいに解説し、データの抽出、格納、収集後のクリーニング、さらにはJavaScriptの実行、OCRを含めた自然言語処理、並列処理などの高度なトピックもカバー。プログラミングテクニックとテクノロジー全般だけでなく、法律面の解説も加え、問題に遭遇した際の対処法まで紹介します。
目次
1部 スクレイパーの作成(インターネットの仕組み;Webスクレイピングの適法性と倫理;Webスクレイピングアプリケーション;スクレイパーの開発;高度なHTMLのパース ほか)
2部 高度なスクレイピング(データの読み込み;汚いデータの取り扱い;自然言語の読み込みと書き込み;フォームとログインを介したクローリング;JavaScriptのスクレイピング ほか)
著者等紹介
ミッチェル,ライアン[ミッチェル,ライアン] [Mitchell,Ryan]
2013年からWebスクレイピングおよびデータサイエンスに関する書籍を執筆。また、『Web Scraping with Python』、『Python Essential Training』をはじめ、6つのLinkedIn学習コースを担当する。Webスクレイピング、アプリケーションセキュリティ、データサイエンスのエキスパートとして、ワークショップの主催するほか、Data DayやDEF CONといった多くのイベントで講演を行う。オーリン工科大学卒業、ハーバド大学Extension Schoo!のソフトウェア工学修士およびデータサイエンス修了。現在はGerson Lehrman Groupの主席ソフトウェアエンジニアとして、同社の検索チームでPythonによる機械学習およびデータサイエンスを担当する。定期的にWebスクレイピングプロジェクトのコンサルティングを小売、金融、製薬業界向けに行う。ノースイースタン大学やオーリン工科大学でカリキュラムコンサルタントや非常勤講師も務める
嶋田健志[シマダタケシ]
主にWebシステムの開発に携わるフリーランスのエンジニア
新井翔太[アライショウタ]
保険業界向けSaaSを手がける株式会社hokan所属のWebエンジニア(本データはこの書籍が刊行された当時に掲載されていたものです)
※書籍に掲載されている著者及び編者、訳者、監修者、イラストレーターなどの紹介情報です。