如何获取第一个内部文本(纯文本,舍弃其他子节点)长度为200或更多个字符的元素?
我正在尝试创建类似于Embed.ly的HTML解析器,我已经设置了一套回退系统,首先检查
这是因为大多数甚至包括的网站都在该标记中描述其站点,而不是当前页面的内容。
示例:
我应该使用什么选择器来获取HTML片段中的 200个字符 部分? 我也不想要一些其他的东西,我不关心它是哪个元素(除了
XPath查询应该长什么样?
我正在尝试创建类似于Embed.ly的HTML解析器,我已经设置了一套回退系统,首先检查
og:description
,然后才会搜索此出现情况,然后只搜索description
元标记。这是因为大多数甚至包括的网站都在该标记中描述其站点,而不是当前页面的内容。
示例:
<html>
<body>
<div>some characters
<p>200 characters <span>some more stuff</span></p>
</div>
</body>
</html>
我应该使用什么选择器来获取HTML片段中的 200个字符 部分? 我也不想要一些其他的东西,我不关心它是哪个元素(除了
<script>
或<style>
),只要它是包含至少200个字符的第一个纯文本。XPath查询应该长什么样?