かれ4

かれこれ4個目のブログ

crawler

ページからコンテンツだけを抜き出すためのシンプルで簡単な方法。

はじめに Scrapingをするときに、全てを手作業で取り出す。 1サイトであれば、それで良いでしょう。 しかし、100サイト、10,000サイト、1,000サイトといわゆる不特定サイトをスクレイピングする場合、 大変な作業量となります。 最初は楽しいのですが、だん…

クローラを生まれ変わらせるにあたっての思考

Advent Calendar 2015の13日目の記事です。今うちで動いているCrawlerは数年前に作られたもので、 仕組みとしてはAzureのService Fabricの上でAWSのLambdaを動かしているのと似たアーキテクチャになっている。そろそろ生まれ変わりの頃かなと思う。生まれ変…