かれ4

かれこれ4個目のブログ

scraping

ページからコンテンツだけを抜き出すためのシンプルで簡単な方法。

はじめに Scrapingをするときに、全てを手作業で取り出す。 1サイトであれば、それで良いでしょう。 しかし、100サイト、10,000サイト、1,000サイトといわゆる不特定サイトをスクレイピングする場合、 大変な作業量となります。 最初は楽しいのですが、だん…

クローラを生まれ変わらせるにあたっての思考

Advent Calendar 2015の13日目の記事です。今うちで動いているCrawlerは数年前に作られたもので、 仕組みとしてはAzureのService Fabricの上でAWSのLambdaを動かしているのと似たアーキテクチャになっている。そろそろ生まれ変わりの頃かなと思う。生まれ変…

人間にはわかるのに、なぜ機械にはそれがわからないのか。A.I.とスクレイピング

この投稿は クローラー/スクレイピング Advent Calendar 2014の12月23日用です。 はじめに人間って凄い。まずはこの画像を御覧ください。図1 各国のECサイトの画像Eコマースのサイトで、商品の詳細のページを見るだけですぐに商品名、価格を判断出来ました…

HTMLパーサとしてのwkhtmltoimage。js実行後のDOMが取れるよ。

クローラー/スクレイピング Advent Calendar 2014の12月20日です。タイトルに書いてあることが全てではありますが、いちおうスクレイピングするにあたっての事を。スクレイピングする時のアプローチとして、大きく2つあると思います。 1つは、完全にテキス…

AWS の課金情報(Account Activity)をAPIじゃないけど、スクレイピングで取得するやつ作ってみた Java のソース付き

#AWS77で多い 課金情報取得のAPIが欲しいというのがあって、 自分も欲しいと思ってた。 ソースコードと、コマンドラインツールと、jarファイルをひとまとめにしたものはこちら。google codeはこちら http://code.google.com/p/aws-account-activity/download…