Regex approach has three problems (at least)
Web::Scraper プレゼン@YAPC::EU: blog.bulknews.net
28枚めからの
- Fragile
- Hard to maintain
- improper HTML & encoding handling
に感動。
そこにもうひとつ
- only one people can maintain scraping rule
というのもいれたい。
つまらない作業はひまな誰かがつまつぶしにできるようになっていると他のみんながハッピーになれる。
ひとりだけしかできないとそのひとは毎回つまらない作業をしないといけなくてつらい。
だいぶんはてなダイアリ使いこなせるようになってきた。
世界中のサイトを見尽くしたいけど限界は確かにあって、その限界に近づけられるなら何をしても良い:TKMR.blog.show
tumblrに誰かが、知らないことが多すぎるけどそれは情報が多すぎるから、みたいなのを書いてたのを思い出した。
でも発見できず。tumblrのうしろの方のページが検索にヒットしないのなんとかならないかな....