内容説明
※この電子書籍は固定レイアウト型で配信されております。固定レイアウト型は文字だけを拡大することや、文字列のハイライト、検索、辞書の参照、引用などの機能が使用できません。
Webから目的の情報を収集するクローラープログラムの作り方を解説。Rubyライブラリを駆使して、巡回・解析機能を作成します。TwitterやFacebookのデータ収集や、株価や企業情報の収集など、さまざまな処理に対応したサンプルスクリプトを多数掲載しています。
感想・レビュー
※以下の感想・レビューは、株式会社ブックウォーカーの提供する「読書メーター」によるものです。
baboocon
15
RubyでWeb上の情報を効率よく収集するクローラーと呼ばれるプログラムを作成、運用するための実践的手引き。豊富な実用例が示されていて、ほぼそのまま試してみることもできる。特にanemoneというクローラーフレームワークとHTML構文解析ライブラリのNokogiriはよく使われている。一からクローラーを作るよりも、APIが提供されている大手Webサービスはそれを利用すべきだとか、対象サイトに負荷をかけない慎重な運用を心がけるなど実際に運用する上での注意点も勉強になる。2015/04/19
しんしん
5
クローラーを作成してWeb上から情報を収集する方法が具体的に記されている。 実行するときにはサイト規約や法律上の問題・収集対象サイトのパフォーマンスに配慮したやり方をやらなければいけない。 必要な時には作ることができるという自信を持った。2016/01/11
もりけい
2
この本、いざクローリングしたくなったら読もうと積読にしていましたが、昨今のOpen Interpreterにより解決してしまう世の中になってしまい、変化の速さを感じた次第です2023/09/18
のぶ
2
本書で最も多用しているツール「アネモネ」の開発が止まっている状態(と本書でも言及してるが)なのが本書の長持ち度に暗雲となるのではと一瞬は思ったけど、考えてみたら本書の後半で実例を沢山示している現実のネット上でのサービスの側はツール界よりもさらに変化の激しい世界だから、ネット関連の技術を紙で出版しようとした時点でもう織り込み済のリスクの範囲内なのでしょうね。プログラミング本としてはニッチなテーマ設定ではあるけど、総論から実例集さらには関連技術の検討に至るまでしっかり書いてある、予想以上によくできた本でした。2015/07/06
hojojon
1
クローラーとは何かという基礎的なことから、クローリング対象のサイトに負荷をかけないようにするにはどうしたらいいか、クローリングの効率化および高速化をどのようにして実現するかといったことまで豊富な具体例とともに幅広く記載されており、興味深く読むことができました。2015/01/29