一个网页爬虫如何抓取 ::before 中的内容？

Question

3

伪元素中的内容，比如::before或::after实际上并不存在于DOM树中。因此，无法通过选择器来定位它。

问题是，我该如何提取其中的内容呢？例如：

<div>This is <span></span>n apple.</div>
...
span::before {
    content : "a"
}

shows : This is an apple.

但是如果我提取 div 的文本，我只能得到 This is n apple. 而没有 span::before 中的内容。

我该如何处理这个问题？

- Sraw

浏览器是通过解析和应用CSS来实现的，你也是这样做的吗？ - nnnnnn

重复？https://dev59.com/7GQo5IYBdhLWcg3wfPfK - Mr. Alien

@Mr.Alien 不，这是关于如何爬取包含伪元素的第三方网站的问题。 - Sraw

@nnnnnn 实际上，我已经尝试过但失败了。即使应用了 CSS 和 JS，伪元素中的内容仍然不存在于 DOM 树中，这仍然导致了位置错误。 - Sraw

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Michael Benjamin · Accepted Answer

我该如何解决这个问题？

说实话，不要使用伪元素来解决这个问题。

伪元素是专门设计用于呈现文档树之外的内容。

这些“生成的内容”，由::before和::after伪元素的content属性指定，通常用于添加纯粹的装饰性内容。

因此，搜索引擎没有理由索引生成的内容。