我正在进行一些网页文本挖掘的工作。目前,我正在使用Java语言进行操作,但也许有更适合我所需的语言。
以下是我想要完成的任务示例:
根据单词的各个部分(字母、数字、符号等)确定其字符类型,如字母、数字、字母数字混合体、符号等(还有更多类型)。
基于统计数据发现停止词汇。
基于统计和某些逻辑发现一些语法类别(动词、名词、介词、连词)。
我在考虑使用Prolog和R(我不太了解这些语言),但我不知道它们是否适合此类工作,或者其他更适合的语言。
我应该使用哪种语言?如果您有Java的好库,也可以提供建议。