将语言配置文件添加到Apache Tika

7

请问,有没有人能够解释一下如何做到这一点呢?:-)

我需要获取所需语言的n-gram文件吗?

是创建 tika.language.override.properties,添加其他语言代码并在classPath上添加lang-code.ngp n-gram文件的问题吗?如果是这样的话,我从哪里获取它,为什么Tika不支持更多的语言呢?

目前,这些语言受到语言检测的支持

da,de,et,el,en,es,fi,fr,hu,is,it,lt,nl,no,pl,pt,ru,sv,th

tika使用传统的n-gram符号表示法

er_ 132232
_de 103517
en_ 82666
et_ 80661
for 65286
_fo 57945
de_ 51382
der 44049
at_ 41915
det 41381
_og 40344
_at 39482
ing 38707
den 36795
og_ 36577
_me 34924
nde 34528

这个语言检测应用程序目前支持以下语言,但其n-gram文件有所不同。

af  bg  cs  de  en  fa  fr  he  hr  id  ja  ko  ml  ne  no  pl  ro  sk  sq  sw   te  tl  uk   vi     zh-tw ar  bn  da  el  es  fi   gu  hi  hu  it  kn  mk  mr   nl   pa  pt  ru  so   sv  ta  th   tr  ur  zh-cn

以JSON表示:
{"freq":{"D":9246,"E":2445,"F":2510,"G":3299,"A":6930,"B":3706,"C":2451,"L":2519,"M":3951,"N":3334,"O":2514,"H" ....
1个回答

1

TIKA-490看起来,应该可以添加新的语言配置文件。 TIKA-546似乎表明它还不如可能那么容易,在此期间,您需要使用Nutch的NGramProfile工具并调整输出。

我建议您尝试使用Nutch工具生成文件,然后查看TIKA-490上的评论以获取有关如何使用它们的详细信息。


Tika中的语言标识符非常奇怪。它只接受长度为3个字符的ngram文件...已经在Tika中的文件具有像'cot','be_'这样的三个字符长的ngram或带有“_”前缀/后缀的两个字符长的ngram...很奇怪,不是吗?我应该使用NGramProfile工具。 - lisak
实际上我不能,因为Nuch或Tika中没有NGramProfile...它从源代码库中消失了... - lisak

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接