问题
我想将几千个网站分类/归类/聚类/分组。我们有可供培训的数据,因此可以进行监督学习,但这不是我们收集到的数据,而且我们并不坚决使用它——因此我们也考虑无监督学习。
我可以在机器学习算法中使用哪些特征来处理多语言数据?请注意,其中一些语言可能尚未在自然语言处理领域得到处理。
如果我要使用无监督学习算法,是否应该按语言对数据进行划分,并分别处理每种语言?不同的语言可能具有不同的相关类别(或者不具备,这取决于您的心理语言学理论倾向),这可能会影响划分的决策。
我正在考虑使用决策树,或者可能是支持向量机(SVM)来允许更多功能(从我的理解)。该帖子建议使用随机森林而不是SVM。您有什么想法?
欢迎采取实用方法! (理论方法也可以,但那些可能留给以后的乐趣。)
背景
我们正在尝试将数千个网站分类为3至5种语言(可能多达10种,但我们不确定)。
我们有已经分类了数百个网站的训练数据。但是,如果其他类别更有意义,我们可以选择使用该数据集或不使用该数据集,因为它不是我们首先收集到的东西。 我们现在处于从网站中爬取数据/文本的最后阶段。
现在我们必须决定上述问题。我已经对Brown Corpus和Brill标记器进行了一些工作,但由于存在多种语言问题,这不起作用。
我们打算使用Orange机器学习软件包。