用Python进行法语文本分析的最佳方法是什么?

4

我希望对一些法语文本进行文本分析,以可视化展示文本之间的相似性,并根据使用的单词确定可能的类别。

我请求您的帮助,因为我刚开始使用Python,希望了解在Python中进行文本分析的最佳方法,考虑到我的文本是法语的。

是否有专门设计用于法语文本的库?用途是清理数据,并进一步分析数据。

我已经能够:

  • 清理:删除所有特殊字符,将每个单词转换为小写并删除停止词
  • 标记:在法语单词上不是最优的(已测试的库:StanfordPostagger,NLTK的Tag.pos)
  • 词形还原:与法语单词不太匹配(FrenchLefffLemmatizer,WordNetLemmatizer)
  • 词干提取:FrenchStemmer snowball

使用法语单词无法完成的工作:将其转换为单数形式,将动词转换为不定式形式...


在StackOverflow上,我们非常严肃,所以这个赞同对我来说似乎有些可疑... - Right leg
1
@vlemaistre https://meta.stackoverflow.com/a/297680/476 - deceze
Ups 没有考虑到那个,我只是想帮忙。谢谢指出。 - vlemaistre
1
对于翻译问题表示抱歉,这是我在Stack上的第一个问题,忘记翻译了...感谢@vlemaistre提供的翻译帮助!我添加了一些细节。 - AliS
@AliS 这个问题太宽泛了。任何全文搜索引擎都可以处理多种语言,使用特定于语言的词干提取器和分词器。自上世纪90年代以来,大多数数据库都具有全文搜索功能,法语是最早加入的语言之一。 - Panagiotis Kanavos
1个回答

1
Spacy库和Treetagger工具(您可以通过treetaggerwrapper库使用)都具有良好的法语支持。
使用spacy的示例:
import spacy
nlp_fr = spacy.load('fr_core_news_sm')
text = "J'ai mangé des pommes hier"
tokens = nlp_fr(text)
for token in tokens:
    print(token.lemma_)

Prints :

je
avoir
manger
un
pomme
hier

Treetagger安装较为困难,但this可以帮助您,这里是Python包装器的文档。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接