我正在使用spacy库构建聊天机器人。 我如何检查一个文档是否是一个具有一定置信度的问题? 我知道如何进行相关性计算,但不确定如何从问题中过滤语句。
我正在寻找类似下面的东西:
spacy.load('en_core_web_lg')('Is this a question?').is_question
我的第一反应是建议查找句子末尾的问号。
否则,大多数问题以 {is, does, do, what, when, where, who, why, what, how} 开始。
还有一个更复杂的答案,涉及助动词的包含和它们相对于动词的位置,但如果您的数据格式良好,这可能就足够了(而且速度较快)。