PHP loadHTML()
PHP5、未整形HTMLをSimpleXMLへ変換 - goungoun技術系雑記帳
まえに見ておおーとおもってたやつ。loadHTMLでwell-formedな状態にしてくれるらしい。AutoPagerize (swdyh)でやってみたら
url: http://www\.pixiv\.net/(bookmark.+type=user).+id= exampleUrl: http://www.pixiv.net/bookmark.php?type=user&id=00010 nextLink: //a[starts-with(text(), "次の")] pageElement: //div[@id="content"]/*[position()>=3 and position()<last()-1]
positionのなかにはいってる < > でエラー出た。がっくし... てきとうになんとかしといてよー。あとPHPのやつは実体参照で知らないやつがあると文句言って投げ出す記憶があるけどあれはこれだとどうなんだろう。
perlのTreeBuilderが一番よくできてると思う。そうじゃなくてperlのTreeBuilder以外使ったことがないだけか....
けっきょくreblog.ido.nuで使ったHTML_Safe を通してからDOMDocumentにしたら解決。HTML_Safeはlastmodifiedがえらく古かったきがするのでほんとはあんまり使いたくない。
あーだめだめ。これはやらないのだ。惑いまくりだ。