我刚开始研究一个分类问题。这是一个两类问题,我的训练模型(机器学习)必须决定/预测是否允许URL或阻止它。
我的问题很具体。
- 如何对URL进行分类?应该使用常规文本分析方法吗?
- URL的特征是什么?
- 如何选择和提取URL的特征?
我刚开始研究一个分类问题。这是一个两类问题,我的训练模型(机器学习)必须决定/预测是否允许URL或阻止它。
我的问题很具体。
我假设您无法访问URL的内容,因此只能从URL字符串本身提取特征。否则,使用URL的内容更有意义。
以下是我将尝试的一些特征。有关更多想法,请参见此论文:
所有URL组件。例如,此页面具有以下URL:
https://dev59.com/B4Tba4cB1Zd3GeqP5mre
在URL的不同部分出现的所有令牌都应对分类具有可变值。在这种情况下,在标记化后的最后一部分为此页面做出了重大贡献(例如,classify, urls, select, extract, features)。
* stackoverflow
* com
* questions
* 26456904
* how to classify urls what are urls features how to select and extract features
google.com
的例子中,唯一有用的特性是标记“google”,它应该与像“搜索引擎”这样的标签有强连接。这种联系应该从已标记的数据集中学习。因此,在这个例子中,你不需要担心特征不足的问题。 - greeness