我正在开发我的第一个Python项目,有一个相当大的数据集(数万行)。 我需要对5个文本列(每个“单元格”多个文本句子)进行一些自然语言处理(聚类、分类),并使用pandas来组织/构建数据集。 我希望使用spaCy进行所有的自然语言处理,但是无法弄清楚如何令我的列中的文本进行标记化。我已经阅读了大量的spaCy文档,并在Google上搜索,但我找到的所有示例都是针对单个句子或单词的,而不是针对pandas df中的75K行。
我尝试过像这样的东西:df['new_col'] = [token for token in (df['col'])]
但我肯定会感激一些帮助/资源。