我在IDLE(Python)上运行以下代码,想要输入阿拉伯字符串并得到其词干,但实际上它不起作用。
>>> from nltk.stem.isri import ISRIStemmer
>>> st = ISRIStemmer()
>>> w= 'حركات'
>>> join = w.decode('Windows-1256')
>>> print st.stem(join).encode('Windows-1256').decode('utf-8')
运行后的结果是文本 w 中的相同文本,“حركات”,这不是词干。
但是当执行以下操作时:
>>> print st.stem(u'اعلاميون')
这个结果成功了,并返回词干'علم'
为什么将一些单词传递给stem()函数后没有返回词干?