出版社内容情報
Webアプリケーション、Webサービスを開発・運用する
エンジニアは、HTML/HTTPやWebサーバなどWeb技術の
仕組みや基礎的な知識をおさえておかなければなりません。
本書では、実サービスでの大規模なWebクローラーの
開発・運用経験をもとに、クローラーを支える、HTTP、
文字コード、HTML、認証、Ajax/JSONなど、Webエンジニアが
おさえておくべきポイントやテクニックを学びます。
クローラーから見たWebサイトの仕組みとその実情に加えて、
現実に即した実践的かつ効率的なクローリングの方法論に
ついても解説します。
○実例をもとにHTTPやHTMLなどWebの仕組みを深く知ることができる
○大規模なクローラーの開発・運用ノウハウを知ることができる
○Webサイトの運営者(クロールされる側)もクローラーに関する知見を得ることができる
内容説明
あらゆるWebサイトをクロールするための実践テクニック。
目次
1 クローラーを支える技術
2 HTTPをより深く理解する
3 文字化けと戦う
4 スクレイピングの極意
5 認証を突破せよ!
6 クローリングの応用テクニック
7 JavaScriptと戯れる
著者等紹介
竹添直樹[タケゾエナオキ]
株式会社ビズリーチ所属。プログラマ。業務の傍らOSS活動や書籍などの執筆を行っており、GitBucket、Apache PredictionIQ、Scalatraなどのコミッタを務める一方、『Scalaパズル』を翻訳、『Java逆引きレシピ』『Scala逆引きレシピ』『Seasar2徹底入門SAStruts/S2JDBC対応』などを執筆(いずれも翔泳社刊)
島本多可子[シマモトタカコ]
株式会社ビズリーチに勤務中。技術者でいたいと思い現職へ。ここ数年は「Scala」「オープンソース」をキーワードに、Webアプリケーションの開発に携わってきたが、最近はもっぱらApache Spark StreamingとAWS‐Kinesisのお世話に追われている。オープンソースのGitHubクローン「GitBucket」の開発も行う
田所駿佑[タドコロシュンスケ]
株式会社ビズリーチ所属のScalaエンジニア
萩野貴拓[ハギノタカヒロ]
株式会社ビズリーチAI室所属。求人検索エンジニア「スタンバイ」のクローラー運用や検索品質の最適化、データマイニングなどを担当した後、現在は機械学習のシステム基盤構築に従事
川上桃子[カワカミモモコ]
株式会社ビズリーチスタンバイ事業部で業務委託として勤務中。求人検索エンジン「スタンバイ」のクローリング定義のメンテナンスを行っている(本データはこの書籍が刊行された当時に掲載されていたものです)
※書籍に掲載されている著者及び編者、訳者、監修者、イラストレーターなどの紹介情報です。