40得票5回答
在PHP中进行网页抓取

我正在寻找一种方式,在PHP中使用用户给定的URL生成另一个页面的小预览。 我想只检索页面的标题、一个图像(例如网站的标志)和少量文本或描述(如果可用)。有没有简单的方法可以在不使用任何外部库/类的情况下实现这一点?谢谢 到目前为止,我尝试使用DOCDocument类加载HTML并在屏幕上...

10得票4回答
使用正则表达式删除HTML注释标签

This is how my text (html) file looks like <!-- | | | This is a dummy comment | | ...

29得票1回答
使用XPath获取HTML元素的文本内容?

看这个 HTML<div> <p> <span class="abc">Monitor</span> <b>$300</b> </p> <a href="/add">...

12得票2回答
如何从网页中提取有意义且有用的内容?

我希望能够解析网页并从中提取有意义的内容。所谓有意义,是指用户想在特定页面中看到的内容(仅限文本数据,不包括广告、横幅、评论等)。我想确保当用户保存页面时,只保存他想阅读的数据,而不是其他任何内容。 简而言之,我需要构建一个与Readability类似的应用程序(http://www.rea...

16得票1回答
BeautifulSoup如何查找包含特定子字符串的属性?这种操作是否可行?

我在我的BeautifulSoup代码中有一个调用find_all()的语句。目前这个语句可以获取到所有的图片,但是如果我只想获取那些src属性包含"placeholder"子字符串的图片,该怎么做呢? for t in soup.find_all('img'): # WHERE img....

21得票1回答
如何使用Jsoup提取独立的文本节点?

我有一个像这样的元素:<td> TextA <br/> TextB </td> 如何将TextA和TextB分别提取出来?

7得票2回答
网络数据采集Java入门

我是Java的新手,希望能够在网页抓取和解析数据方面变得更加优秀。 有没有与网页抓取相关的网站可以帮助我了解像htmcleaner、web-harvest、htmlparser这样的API是如何工作的? 我还不熟练掌握Java,无法查看它们的Javadocs并理解它们所有方法的工作原理,也...

14得票2回答
将值绑定为HTML在StencilJS中。

我遇到了一个问题,无法将包含自定义HTML的值呈现到元素中。 例如:this.title = 'Hello <b> stencil </b>'; << response value from an API 绑定:<h1>{this.title}...

406得票16回答
使用JS解析HTML字符串

我想解析一个包含HTML文本的字符串,我想在JavaScript中实现。 我尝试了Pure JavaScript HTML Parser库,但似乎它解析的是当前页面的HTML,而不是从字符串中解析。因为当我尝试下面的代码时,它会改变我的页面标题:var parser = new HTMLtoD...

8得票4回答
如何比使用strip_tags函数更安全地去除标签?

当字符串中包含“小于”和“大于”符号时,我在使用strip_tags PHP函数时遇到了一些问题。例如: 如果我执行以下操作: strip_tags("<span>some text <5ml and then >10ml some text </span&g...