我正在尝试通过分析句子来实现预测。考虑以下[相当枯燥的]句子。
一般而言,
这个想法是在输入新句子时使用这些数据。例如,如果已经输入了
我意识到这只是实现预测的数百万种可能之一,我热切期待其他实现方式的建议。
谢谢。
Call ABC
Call ABC again
Call DEF
我希望你能够将以上句子的数据结构设计如下:
Call: (ABC, 2), (again, 1), (DEF, 1)
ABC: (Call, 2), (again, 1)
again: (Call, 1), (ABC, 1)
DEF: (Call, 1)
一般而言,
Word: (Word_it_appears_with, Frequency), ....
表示单词出现的频率及其与其他单词的关联。请注意这种数据类型的固有冗余性。显然,如果在Call
下,ABC
的频率为2,则在ABC
下,Call
的频率也是2。如何优化这个问题呢?这个想法是在输入新句子时使用这些数据。例如,如果已经输入了
Call
,则可以从数据中轻松地得出ABC
更可能出现在句子中,并将其作为第一个建议,随后是DEF
。我意识到这只是实现预测的数百万种可能之一,我热切期待其他实现方式的建议。
谢谢。