我目前正在开始一个项目,涉及大量数据的抓取和处理(数百吉字节),并从中进行结构化数据提取、命名实体识别、去重、分类等挖掘。
我熟悉Java和Python两个世界的机器学习工具:Lingpipe、Mahout、NLTK等。但是,在选择这样一个大规模问题的平台时,我缺乏足够的经验来决定使用Java还是Python。
我知道这听起来像一个模糊的问题,但我正在寻求关于选择Java或Python的普遍建议。JVM在性能上是否比Python更好?但是像Lingpipe等库是否能与Python生态系统相匹配呢?如果我选择Python,那么在多台机器上扩展和管理会有多容易呢?
我应该选择哪一个,并为什么选择它?