有一些方法可以检索文本之间的相似度,例如wup_similarity() cosine_similarity()等。我的目的是建立一个答案论文比对系统。也就是说,我想比较答案和评分标准。到目前为止,我还没有使用任何培训或建模方法来完成以下工作。
1.预处理两个文档(去除标点符号,进行词形还原等)。
2.接下来,我使用Word-Net Syn-Sets获取相似单词,并生成两个大数组(评分方案及其同义词和答案列表及其同义词)--可能不是正确的方法。
3.然后,我需要比较这两个大数组并获取相似度值。
请问您能否通过提供一些建议或答案来帮助我解决这个问题?我知道Word-Net Syn-Sets并不是最好的选择,因为它会返回无关的答案。例如:动物和车辆将返回1作为相似值。但是,我需要找到解决方案。
1.预处理两个文档(去除标点符号,进行词形还原等)。
2.接下来,我使用Word-Net Syn-Sets获取相似单词,并生成两个大数组(评分方案及其同义词和答案列表及其同义词)--可能不是正确的方法。
3.然后,我需要比较这两个大数组并获取相似度值。
请问您能否通过提供一些建议或答案来帮助我解决这个问题?我知道Word-Net Syn-Sets并不是最好的选择,因为它会返回无关的答案。例如:动物和车辆将返回1作为相似值。但是,我需要找到解决方案。