相关词接近度

algorithmtextstatisticscluster-analysis

5

假设我有一个大约1小时的对话文本记录。我想知道哪些单词彼此靠近。为了确定哪些单词聚集在一起，以及它们之间的距离有多近，我需要使用什么类型的统计技术?

我怀疑这是一种聚类分析或PCA。

- Tyler Rinker

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- jayunit100 · Accepted Answer

为了确定词语的接近程度，您需要建立一个图:

1. 每个单词都是一个顶点（或“节点”）， 2. 左右单词是边。

所以，“我喜欢狗”有两条边和三个顶点。

下一步将基于这个模型决定“接近”的定义，这就是统计学发挥作用的地方。

为了确定相关的单词组，可以采取以下方法：

1. MCL聚类 - 这将为您提供多个聚类，其算法具有高概率一起被看到。

2. K MEANS聚类 - 这将给您“k”组词。

3. 阈值法 - 这是最可靠和直观的方法。将您理解的小数据子集的所有关系绘制出来（例如，您阅读过的新闻剪辑或文章的段落），并运行您的方法生成一个图，使用诸如graphviz或cytoscape之类的工具可视化该图。一旦您能够看到相关性，您可以计算不同单词之间通常发现的边缘数量，这些单词明显聚集在一起。例如，您可能会发现两个聚在一起的单词每5个实例有一条边缘。将此用作截止线，并编写自己的图形分析脚本，它输出在顶点图中每5个实例至少有1条边缘的单词对。

评估3的ROC曲线。您可以逐渐将此截止值调高，直到只剩下很少的“聚类”。然后，如果使用一个已知预期结果的段落（由已经知道应报告为相关的单词的人创建），运行算法，您可以使用接收者操作特征来评估算法的精度，该特征将相关单词的输出与预先计算的标准进行比较。