46得票7回答
如何为Jsoup添加代理支持?

我是Java的初学者,我的第一个任务是解析一些10,000个网址并从中提取一些信息,为此我使用了Jsoup,并且它运行良好。 但现在我想添加代理支持。这些代理还有用户名和密码。

13得票3回答
jsoup和Beautiful Soup中的“soup”是什么意思?

在 jsoup 和 Beautiful Soup 中,“soup” 的含义是什么,为什么要叫做“soup”?

7得票3回答
在Java中查找嵌套匹配的HTML标签

我正在使用Java处理一个有效的HTML字符串(使用jsoup解析,因此所有标签都有闭合标记并且格式良好),我需要查找给定标签名称的内容,例如,在以下字符串中使用: <p> hi! </p> <p> hi again! </p> <h1&...

7得票3回答
使用JSoup提取图片的src属性

我正在尝试使用jsoup从这个网页中提取所有的图片url。有人能提供如何做到这一点的帮助吗?所有的标签都是这样格式化的,但我只需要src图像,而不是ajaxsrc。 <IMG ajaxsrc="/pics32/160/MP/MPYXBXTSYVKAKJQ.20110918032436....

8得票1回答
如何使用jsoup来整理HTML

我正在使用jsoup,它非常方便整理一些HTML,但是我有一个无效的HTML片段如下: <p>The recurrence, in close succession <ul><li>list item 1</li><li>list ...

7得票2回答
使用Jsoup选择一个没有类的HTML元素。

考虑像这样的一个 HTML 文档。 <div> <p>...</p> <p>...</p> ... <p class="random_class_name">...</p...

29得票7回答
使用Jsoup.clean清除HTML内容时不添加HTML实体。

我正在使用某些方法清除一些不需要的HTML标签(例如<script>)String clean = Jsoup.clean(someInput, Whitelist.basicWithImages()); 问题在于它将例如å替换为å(这对我造成麻烦,因为它不是“...

7得票1回答
Java 11使用Jsoup时,HTTPS连接失败并出现SSL HandshakeException异常

我正在尝试使用Jsoup库爬取一个网页(这个)。在执行简单的GET操作时,我遇到了以下异常: javax.net.ssl|DEBUG|01|main|2018-12-24 15:41:06.431 EET|Utilities.java:73|the previous server name ...

10得票1回答
Jsoup获取部分页面

我正在尝试爬取竞拍网站的内容,但无法获取完整的网页。我先使用crowbar on xulrunner来获取页面(因为ajax会懒加载某些元素),然后从文件中抓取数据。 但是,在bidrivals网站的主页上,即使本地文件格式良好,也会失败。 jSoup似乎只能在html代码的中途结束,以“.....

8得票2回答
如何将本地HTML文件加载到Jsoup中?

使用Jsoup库加载本地html文件似乎有问题,或者至少它没有被认可。我在本地文件中硬编码了确切的html(作为变量'html'),当我切换到它而不是文件输入时,代码就可以完美运行了。但是文件在两种情况下都被读取。 import java.io.File; import org.jsoup....