Java中的语言识别

11

是否有Java的语言识别开源库?我只找到了C/C++的。

更新:

我说的是人类文本语言。例如:

输入:My name is John. 输出:英语。

输入:Ich heisse John. 输出:德语。

输入:Меня зовут Джон. 输出:俄语。


请告诉我们您需要哪种类型的软件。它应该是一个正式的自动机,能够识别字符串是否属于特定的形式语言吗?它应该能够告诉文本使用的人类语言是什么吗?它应该能够告诉源代码使用的语言是什么吗?它应该能够告诉可执行文件可能使用的语言是什么吗?它应该能够识别声音是单词还是噪音吗?它应该能够识别人们正在说什么语言吗? - David Thornley
有点挑剔,但必须减1,因为没有展示任何研究努力...不过这是一个好问题,所以我收藏了它。 - icedwater
4个回答

13

看看你对Apache Tika中的版本有什么想法。这假设你想找出文本所使用的语言,而不是想要构建用于编程语言解析的解析器。


也许提供Tika的链接 - Bozho

3
Textcat http://textcat.sourceforge.net/ 并不支持俄语,但它可以处理以下语言:
  • 阿尔巴尼亚语
  • 丹麦语
  • 荷兰语
  • 英语
  • 芬兰语
  • 法语
  • 德语
  • 匈牙利语
  • 意大利语
  • 挪威语
  • 波兰语
  • 斯洛伐克语
  • 斯洛文尼亚语
  • 西班牙语
  • 瑞典语


1

有一个语言检测API,可以通过HTTP POST接收文本,并返回JSON格式的检测到的语言和分数。它可以从Java或任何其他编程语言中使用。


0

我认为ANTLR是相当标准的。


2
我们中有人感到困惑。我认为他想要一种判断文本是中文还是日文的方法,而你认为他想要制作一个解析器!我们拭目以待。 - bmargulies
1
@bmargulies - 从问题中无法推断出来,因此两个答案都是有意义的。 - Bozho

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接