次のページのURL分類

iviewの副産物としてXML::LibXMLでhtmlちゃんと読めるの知ったのでautopagerizeのsiteinfoテスト。nextLinkでとれたURLの傾向。
AutoPagerizeのSITEINFOについての考察 « kuにおけるparagraphとEFTとでも違うけど、めんどいから区別してない。

1.ページ番号そのものを含んでいる

page=2, page/2, 2.html みたいなのがついているもの。

2.オフセットを含んでいる

b=11, start=10 みたいなやつ。1ページにいくつ入っているかがわからないと予測できない。

3.不定

story_id=1684205 のように、値が一意に定まっていない場合。


目で見る限り95%以上どれかにあてはまる。

ただURLだけから次のページを推測するのは、読み始めるページが1ページ目だという仮定があっても困難。1ページ目だという仮定は1にしか有効でない。HTMLのマークアップ木構造から推測する必要がある。でも多分困難。

Opera fastforwardのアプローチ(アンカーテキストに入っているそれっぽい文字を探す)、構造解析(ナビゲーション部分は数字だけが入ってるリンクが同階層に並んでる)、くらいしか使える材料がない。レイテンシ次第でpathtraqの次のページ統計が使えるかも。ほかは思いつかない。本文抽出の逆を張って本文でないところから探す? ほとんど効果なさそう。