我希望开始开发一个使用机器学习的应用程序。我想对文本进行分类 - 垃圾邮件或非垃圾邮件。我有两个文件 - spam.txt
,ham.txt
- 每个文件包含数千个句子。如果我想使用分类器,比如LogisticRegression
。
例如,我在互联网上看到,为了适合我的模型,我需要像这样做:
`lr = LogisticRegression()
model = lr.fit(X_train, y_train)`
那么我有一个问题,什么是实际的X_train
和y_train
?我怎样才能从我的句子中获取它们?我在互联网上搜索了一番,但是我并没有理解。这是我最后的呼唤,因为我对这个主题非常陌生。谢谢!