我有10,000个HTML页面。
我知道其中一些是由相同的CMS系统构建的,因此具有“某种程度上”相同的结构,尽管不完全相同。 我预计会有大约100个不同的CMS,但我事先不知道它们,所以我不能寻找预定义的模式。
这就是为什么我需要一个算法来计算每个页面的相似度,并根据相似度对它们进行聚类的原因..?
我希望能在Ruby中找到一些工具,但其他语言也可以。
附注:我不想查看内容(文本)的相似性。 只想在元级别上进行比较。 像HTML结构、CSS规则、类名等等。
我有10,000个HTML页面。
我知道其中一些是由相同的CMS系统构建的,因此具有“某种程度上”相同的结构,尽管不完全相同。 我预计会有大约100个不同的CMS,但我事先不知道它们,所以我不能寻找预定义的模式。
这就是为什么我需要一个算法来计算每个页面的相似度,并根据相似度对它们进行聚类的原因..?
我希望能在Ruby中找到一些工具,但其他语言也可以。
附注:我不想查看内容(文本)的相似性。 只想在元级别上进行比较。 像HTML结构、CSS规则、类名等等。