在数据挖掘领域中,是否有一个名为“相似性”的特定子学科?如果是,它处理什么内容?任何示例、链接和参考资料都将有所帮助。
此外,作为这个领域的新手,我想知道社区对数据挖掘和人工智能之间关系的看法。它们是同义词吗?一个是另一个的子集吗?
感谢您分享您的知识。
此外,作为这个领域的新手,我想知道社区对数据挖掘和人工智能之间关系的看法。它们是同义词吗?一个是另一个的子集吗?
感谢您分享您的知识。
“相似性”适当的定义(提取哪些特征以及之后的处理方式)几乎就是聚类的定义,而聚类是数据挖掘的一个相当广泛的子领域。
如果您采用标准的愤世嫉俗的AI定义——我们无法解决的问题集合(确实,我们无法准确说明以开始解决的问题),那么当您寻找相关性的空间超出算法能够处理的范围时,数据挖掘就会变得模糊不清。
强调“相似性”概念的重要性。
数据挖掘(人工智能、机器学习、建模等)旨在将某些函数最大化或最小化。选择最佳优化/学习/挖掘算法和错误的函数会得到完全无用的结果。请注意,我们使用“值”而不是“值S”。这是因为没有(据我所知)算法(计算或其他)能够优化多个值。然而,在我们的宇宙中,复杂的优化比单维度的优化更频繁(我们想变得富有、年轻且健康)。这就是为什么存在大量相似性和其他评分函数的原因。也正因如此,其中没有一个是“正确的”。
相似性是数据挖掘任务中常用的概念,如聚类、分类等。根据您拥有的数据类型,您可以使用不同的相似度度量方法,例如文本文档的余弦相似度、欧几里得距离等。
在数据挖掘中有许多相似度测量方法。对于文本挖掘,常用的余弦相似度和Jaccard相似度来寻找文本之间的相似性。
如果需要参考,可以查看Raghavan和Amnnings的信息检索书籍。