如何分类URL？URL有哪些特征？如何从URL中选择和提取特征？

Question

如何分类URL？URL有哪些特征？如何从URL中选择和提取特征？

urlmachine-learningclassificationfeature-extractiontext-classification

7

我刚开始研究一个分类问题。这是一个两类问题，我的训练模型（机器学习）必须决定/预测是否允许URL或阻止它。

我的问题很具体。

如何对URL进行分类？应该使用常规文本分析方法吗？
URL的特征是什么？
如何选择和提取URL的特征？

- Nasir

我有一个数据集，其中包含URL。我想训练我的模型将URL分类为成人内容或非成人内容。基本上，该模型用于过滤目的。希望使用URL阻止令人反感的网页，并使用下载页面内容和其他特征（如网页中的元数据）进行过滤。因此，这是一个两类问题。我的问题是，我们如何仅使用URL功能对网页进行分类。我遇到的问题是，我可以使用哪些最佳特征提取方法？ - Nasir

您IP地址为143.198.54.68，由于运营成本限制，当前对于免费用户的使用频率限制为每个IP每72小时10次对话，如需解除限制，请点击左下角设置图标按钮（手机用户先点击左上角菜单按钮）。 - Nasir

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- greeness · Accepted Answer

我假设您无法访问URL的内容，因此只能从URL字符串本身提取特征。否则，使用URL的内容更有意义。

以下是我将尝试的一些特征。有关更多想法，请参见此论文：

所有URL组件。例如，此页面具有以下URL：

https://dev59.com/B4Tba4cB1Zd3GeqP5mre

在URL的不同部分出现的所有令牌都应对分类具有可变值。在这种情况下，在标记化后的最后一部分为此页面做出了重大贡献（例如，classify, urls, select, extract, features）。

 * stackoverflow
 * com
 * questions
 * 26456904
 * how to classify urls what are urls features how to select and extract features

一个URL的长度；
n-grams（以下示例为2-grams）：
- stackoverflow-com
- com-questions
- questions-26456904
- 26456904-how
- how-to
- ...