词语分类算法的优缺点

3

作为大学项目,我需要构建一个软件,根据一些关于虚拟建筑工地的评论来检测其实际状态(刚开始在施工中已终止)。

例如,给定以下评论:

  • “很高兴听到我们可以走过英吉利海峡大桥”
  • “昨天我和朋友去了新建的桥上,去法国游玩”
  • “他们刚刚完成这个工地,第五英里就出现了裂缝。太让人失望了!”

该系统应该检测到“英吉利海峡大桥”建筑工地已经结束。

目前,我正在尝试选择用于此项目的词分类算法。我在网上搜索了最佳分类算法。我阅读了有关SVC的文章,但由于我不是这个领域的专家,我不确定SVC与我的场景是否相符。

我想要得到的并不是解决问题的方案,而是一份可用算法列表及其优缺点。

1个回答

1
您正在错误地制定问题,这使得人们很难为您列出利弊清单。
您所描述的问题实际上不是一个词汇分类问题,因为您并没有对单词进行分类。您要做的是:
1. 命名实体识别(Named Entity Recognition)施工项目 2. 根据提及上下文将每个施工命名实体分类为3种不同类型。
算法并不是真正的问题。大多数分类算法(线性回归、决策树、SVM等)都可以使用。
您实际上面临的问题(但根据您的问题并没有意识到)是您没有任何训练数据,无论是找到施工项目命名实体还是将这些实体分类为您的3个类别之一。
我的建议是,您可以使用其中一个免费可用的NER工具包/库,添加与施工项目相关的字典特征(如桥梁、塔等),然后看看您在任务的第一部分中能做得有多好。
更重要的考虑因素是:
  1. 你有多少时间/金钱来获取注释数据?
  2. 你需要什么样的性能表现?
  3. 你愿意考虑哪种语言/库(在我看来,这是最不重要的问题)

很抱歉,我意识到这可能不是你想听到的答案,但我认为这是你需要的答案。 ;)


您好,感谢您的回答。我不需要再解决这个问题了,但我对了解单词分类算法的优缺点很感兴趣,而不是如何实现解决方案。您的考虑是正确和有帮助的,但并没有真正回答我的问题,就像您所说的那样。 即使我不需要处理这个问题,了解更多还是很有意思的。 [抱歉我的英语不好] - Ada

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接