用Python进行法语文本分析的最佳方法是什么？

Question

用Python进行法语文本分析的最佳方法是什么？

pythonnlp

4

我希望对一些法语文本进行文本分析，以可视化展示文本之间的相似性，并根据使用的单词确定可能的类别。

我请求您的帮助，因为我刚开始使用Python，希望了解在Python中进行文本分析的最佳方法，考虑到我的文本是法语的。

是否有专门设计用于法语文本的库？用途是清理数据，并进一步分析数据。

我已经能够：

清理：删除所有特殊字符，将每个单词转换为小写并删除停止词
标记：在法语单词上不是最优的（已测试的库：StanfordPostagger，NLTK的Tag.pos）
词形还原：与法语单词不太匹配（FrenchLefffLemmatizer，WordNetLemmatizer）
词干提取：FrenchStemmer snowball

使用法语单词无法完成的工作：将其转换为单数形式，将动词转换为不定式形式...

- AliS

在StackOverflow上，我们非常严肃，所以这个赞同对我来说似乎有些可疑... - Right leg

1

@vlemaistre https://meta.stackoverflow.com/a/297680/476 - deceze

Ups 没有考虑到那个，我只是想帮忙。谢谢指出。 - vlemaistre

1

对于翻译问题表示抱歉，这是我在Stack上的第一个问题，忘记翻译了...感谢@vlemaistre提供的翻译帮助！我添加了一些细节。 - AliS

@AliS 这个问题太宽泛了。任何全文搜索引擎都可以处理多种语言，使用特定于语言的词干提取器和分词器。自上世纪90年代以来，大多数数据库都具有全文搜索功能，法语是最早加入的语言之一。 - Panagiotis Kanavos

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Corentin Limier · Accepted Answer

Spacy库和Treetagger工具（您可以通过treetaggerwrapper库使用）都具有良好的法语支持。

使用spacy的示例：

import spacy
nlp_fr = spacy.load('fr_core_news_sm')
text = "J'ai mangé des pommes hier"
tokens = nlp_fr(text)
for token in tokens:
    print(token.lemma_)

Prints :

je
avoir
manger
un
pomme
hier

Treetagger安装较为困难，但this可以帮助您，这里是Python包装器的文档。