ソーシャル分散スクレイピング
前にperlでツリー状のデータを元にWeb::Scraperのインスタンスをつくるコードを書いたことがあった。
XPathでスクレイプするのはようするにXSLTを通してるだけのことで、DSLとしてWeb::ScraperなのかXSLTなのかの違い。DSLはAutoPagerizeと同様にwikiでメンテできる。AutoPagerizeよりも取り出すデータが正しいかどうかをキカイで理解可能な場合が多いので(ページの内容、キカイに理解させるのは困難だし、ニンゲンにとっても難しい)、一度データを入れれば機会でメンテするのも容易だ。たぶん。少なくともエラー検出は容易だ。
Google Social Graph API と fooo.name:TKMR.blog.showの、分散クローラ、は、ブラウザ上で、Greasemonkeyが1%から0.1%くらいの割合で、かってにどっかをクロールして、パースして、データだけどっかいれてくれるとか、そんなのもあるなと、思った。
- distributed crawling
- centralized metadata database
- wiki based low-tech social semantic web
- Firefox AS OS
みたいなキーワード。でもやっぱりちょっとFirefoxでクロールされるのはいやかも。
Firebugのおかげで、スクレイプしたあとのデータを確認するのが楽にできるのはよかった。
ちょこっとjsondbp書いて AutoPagerizeSITEINFO とか WebScraperPerlCode とか書いてみたけどなんかなにかいていいかわかんなくて何も書いてない。まじめにやろうとおもったらJSONのパーサは作んないとだめだと思った。とりあえずFirefoxのなんちゃってJSONが読めないとはなしになんない。人間が書くときにもめんどい。あと間違ってたときにどこが間違ってるか教えてくれないと困るのだ。yacc/lex演習レベル。PHP extension入門だ。PHPにもlex/yaccみたいなやつあった気もする。yaccとlexどっちが先だっけ。cは二つだったっけ。わすれた。
ほんとは自分でサーバ持ったりコード書いたりしないでどっかにデータだけいれたい。