jsoupを使いWEBサイトをスクレイピングするプログラムをJavaで創る [プログラミング]
やりたいこと
jsoupを使い、WEBサイトをスクレイピングするプログラムの基礎を学習したかった。追々、実現したいこと
- ショッピングサイトや価格サイトで商品情報を収集する
- ニュースサイトで自分が興味あるキーワードに合致するニュースを収集する
- オークションサイトで目当て商品の情報を収集する
- 近所の映画館の上映スケジュールを収集する
注意点
スクレイピングプログラムは、性質上、一回の実行で大量のリクエストを発行することが可能。そのため、実行周期やリクエスト数によってはDoS攻撃とみなされる場合があるので、節度を持った運用が必要。
実装
pom.xmlScrapingDemo.java
実行結果
最初の抽出では、検索結果から"h3"タグの要素のみを抽出している。要素は順不同で抽出しており、最後の2件については、検索結果のタイトルとは関係ない要素を抽出してしまっている。
2回目の抽出で、classが"LC20lb DKV0Md"の要素のみを抽出している。
"h3"タグの抽出結果から、更にclassが"LC20lb DKV0Md"の要素に絞られて抽出されているのが分かる。