SSブログ

jsoupを使いWEBサイトをスクレイピングするプログラムをJavaで創る [プログラミング]

やりたいこと

jsoupを使い、WEBサイトをスクレイピングするプログラムの基礎を学習したかった。

追々、実現したいこと

  • ショッピングサイトや価格サイトで商品情報を収集する
  • ニュースサイトで自分が興味あるキーワードに合致するニュースを収集する
  • オークションサイトで目当て商品の情報を収集する
  • 近所の映画館の上映スケジュールを収集する
など

注意点

スクレイピングプログラムは、性質上、一回の実行で大量のリクエストを発行することが可能。
そのため、実行周期やリクエスト数によってはDoS攻撃とみなされる場合があるので、節度を持った運用が必要。

実装

pom.xml


ScrapingDemo.java

実行結果

最初の抽出では、検索結果から"h3"タグの要素のみを抽出している。
要素は順不同で抽出しており、最後の2件については、検索結果のタイトルとは関係ない要素を抽出してしまっている。
2回目の抽出で、classが"LC20lb DKV0Md"の要素のみを抽出している。
"h3"タグの抽出結果から、更にclassが"LC20lb DKV0Md"の要素に絞られて抽出されているのが分かる。




nice!(0)  コメント(0) 

この広告は前回の更新から一定期間経過したブログに表示されています。更新すると自動で解除されます。