次のページのURL分類
iviewの副産物としてXML::LibXMLでhtmlちゃんと読めるの知ったのでautopagerizeのsiteinfoテスト。nextLinkでとれたURLの傾向。
AutoPagerizeのSITEINFOについての考察 « kuにおけるparagraphとEFTとでも違うけど、めんどいから区別してない。
1.ページ番号そのものを含んでいる
page=2, page/2, 2.html みたいなのがついているもの。
2.オフセットを含んでいる
b=11, start=10 みたいなやつ。1ページにいくつ入っているかがわからないと予測できない。
3.不定
story_id=1684205 のように、値が一意に定まっていない場合。
目で見る限り95%以上どれかにあてはまる。
ただURLだけから次のページを推測するのは、読み始めるページが1ページ目だという仮定があっても困難。1ページ目だという仮定は1にしか有効でない。HTMLのマークアップ、木構造から推測する必要がある。でも多分困難。
Opera fastforwardのアプローチ(アンカーテキストに入っているそれっぽい文字を探す)、構造解析(ナビゲーション部分は数字だけが入ってるリンクが同階層に並んでる)、くらいしか使える材料がない。レイテンシ次第でpathtraqの次のページ統計が使えるかも。ほかは思いつかない。本文抽出の逆を張って本文でないところから探す? ほとんど効果なさそう。