为了确定词语的接近程度,您需要建立一个图:1. 每个单词都是一个顶点(或“节点”), 2. 左右单词是边。所以,“我喜欢狗”有两条边和三个顶点。下一步将基于这个模型决定“接近”的定义,这就是统计学发挥作用的地方。为了确定相关的单词组,可以采取以下方法:1. MCL聚类 - 这将为您提供多个聚类,其算法具有高概率一起被看到。2. K MEANS聚类 - 这将给您“k”组词。3. 阈值法 - 这是最可靠和直观的方法。将您理解的小数据子集的所有关系绘制出来(例如,您阅读过的新闻剪辑或文章的段落),并运行您的方法生成一个图,使用诸如graphviz或cytoscape之类的工具可视化该图。一旦您能够看到相关性,您可以计算不同单词之间通常发现的边缘数量,这些单词明显聚集在一起。例如,您可能会发现两个聚在一起的单词每5个实例有一条边缘。将此用作截止线,并编写自己的图形分析脚本,它输出在顶点图中每5个实例至少有1条边缘的单词对。评估3的ROC曲线。您可以逐渐将此截止值调高,直到只剩下很少的“聚类”。然后,如果使用一个已知预期结果的段落(由已经知道应报告为相关的单词的人创建),运行算法,您可以使用接收者操作特征来评估算法的精度,该特征将相关单词的输出与预先计算的标准进行比较。