如何分类URL?URL有哪些特征?如何从URL中选择和提取特征?

7

我刚开始研究一个分类问题。这是一个两类问题,我的训练模型(机器学习)必须决定/预测是否允许URL或阻止它。

我的问题很具体。

  1. 如何对URL进行分类?应该使用常规文本分析方法吗?
  2. URL的特征是什么?
  3. 如何选择和提取URL的特征?

我有一个数据集,其中包含URL。我想训练我的模型将URL分类为成人内容或非成人内容。基本上,该模型用于过滤目的。希望使用URL阻止令人反感的网页,并使用下载页面内容和其他特征(如网页中的元数据)进行过滤。因此,这是一个两类问题。我的问题是,我们如何仅使用URL功能对网页进行分类。我遇到的问题是,我可以使用哪些最佳特征提取方法? - Nasir
您IP地址为143.198.54.68,由于运营成本限制,当前对于免费用户的使用频率限制为每个IP每72小时10次对话,如需解除限制,请点击左下角设置图标按钮(手机用户先点击左上角菜单按钮)。 - Nasir
1个回答

8

我假设您无法访问URL的内容,因此只能从URL字符串本身提取特征。否则,使用URL的内容更有意义。

以下是我将尝试的一些特征。有关更多想法,请参见论文:

  1. 所有URL组件。例如,此页面具有以下URL:

    https://dev59.com/B4Tba4cB1Zd3GeqP5mre

在URL的不同部分出现的所有令牌都应对分类具有可变值。在这种情况下,在标记化后的最后一部分为此页面做出了重大贡献(例如,classify, urls, select, extract, features)。

 * stackoverflow
 * com
 * questions
 * 26456904
 * how to classify urls what are urls features how to select and extract features
  1. 一个URL的长度;
  2. n-grams(以下示例为2-grams):
    • stackoverflow-com
    • com-questions
    • questions-26456904
    • 26456904-how
    • how-to
    • ...

翻译:greeness,你讲解得很好。我读了一些论文,在那里他们通过使用URL特征就能够对网页进行分类。我有些困惑,如何从简单的URL中提取特征,例如www.google.com,它没有足够的特征。如果我决定从所有数据集的URL中提取6个特征来训练算法,当遇到简单的URL时会发生什么? - Nasir
你正在使用的大多数特性可能是稀疏的。你可能指的不是6个特性,而是6种类型的特性或6个特性族群。在 google.com 的例子中,唯一有用的特性是标记“google”,它应该与像“搜索引擎”这样的标签有强连接。这种联系应该从已标记的数据集中学习。因此,在这个例子中,你不需要担心特征不足的问题。 - greeness
谢谢Greenes,这是不是意味着我要告诉我的估算器/分类器,在一个例子中开始的标记比在长例子的结尾处的标记更重要? - Nasir
最好让你的机器学习模型来解决这个问题。 - greeness

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接