PHPのsimilar_text
PHPの文字列の類似度比較関数 PHP: similar_text - Manualに書いてあるOliver [1993] の論文。
A Decision Graph Explanation of Protein Secondary Structure Prediction
infobiomatics系のアルゴリズムだった。今日は読む元気ない。
PHP: levenshtein - Manualは古いアルゴリズムっぽいけど、計算量が少ない。similar_textは類似度が出るのがいいところ?
smith-watermanアルゴリズムでコスト関数を、文字種が同じときには低くして、特に0->1や1->2のときはゼロにする
ことでいろいろ書かずに連続するURLかどうか判断できないかと思って。
おとなしくこまごま書いたほうが早いだろうか。
あれ、edit distanceとるんだったら文書比較アルゴリズムのO(ND)のほうが平均的には早いんじゃないだろうか。
どうでもいいけどPHPにやたら組み込まれてるこの辺の関数は誰が何を意図して書いたんだろう。
20くらいAutoPagerizeのページ見てたけどやっぱeditDistance基準は無理。パラメータが省略されているときと、ついているときのdistanceがでかすぎるし、あんまり規則がない。