我的问题是需要比较URL路径并判断它们是否相似。下面提供了要处理的示例数据:
# GROUP 1
/robots.txt
# GROUP 2
/bot.html
# GROUP 3
/phpMyAdmin-2.5.6-rc1/scripts/setup.php
/phpMyAdmin-2.5.6-rc2/scripts/setup.php
/phpMyAdmin-2.5.6/scripts/setup.php
/phpMyAdmin-2.5.7-pl1/scripts/setup.php
/phpMyAdmin-2.5.7/scripts/setup.php
/phpMyAdmin-2.6.0-alpha/scripts/setup.php
/phpMyAdmin-2.6.0-alpha2/scripts/setup.php
# GROUP 4
//phpMyAdmin/
我尝试使用Levenshtein距离进行比较,但对我来说不够准确。我不需要100%准确的算法,但我认为必须达到90%及以上。
我认为我需要某种分类器,但问题是每个新数据部分都可能包含应该归类到新未知类别的路径。
请问您可以指引我正确的方向吗?
谢谢。