114得票15回答
使用jsoup将html转换为纯文本时如何保留行间距?

我有以下代码: public class NewClass { public String noTags(String str){ return Jsoup.parse(str).text(); } public static void ma...

104得票6回答
Jsoup SocketTimeoutException: 读取超时

当我使用Jsoup解析大量HTML文档时,我遇到了SocketTimeoutException的问题。 例如,我有一个链接列表:<a href="www.domain.com/url1.html">link1</a> <a href=&quot...

57得票10回答
如何“扫描”一个网站(或页面)以获取信息,并将其导入到我的程序中?

我正在努力找出如何从网页中提取信息并将其带入我的Java程序。例如,如果我知道我想要的确切页面,为了简单起见,是一个Best Buy商品页面,那么我如何从该页面获取所需的适当信息?比如标题、价格和描述等?这个过程应该被称为什么?我甚至不知道从哪里开始研究。 编辑: 好的,我正在测试JSoup...

52得票6回答
Jsoup发布和Cookie

我正在尝试使用jsoup登录一个网站并抓取信息,但是遇到了问题。我可以成功登录并从index.php创建文档,但我无法获取该网站上的其他页面。我知道需要在提交后设置cookie,并在尝试打开站点的另一页时加载它。但我该如何做呢?以下代码允许我登录并获取index.php。Document do...

51得票3回答
Jsoup - 去除所有格式和链接标签,只保留文本

假设我有一个像这样的HTML片段:<p> <span> foo </span> <em> bar <a> foobar </a> baz </em> </p> 我想要从中提取的内容是:foo bar...

47得票4回答
JSoup用户代理,如何正确设置?

我想用 JSoup 解析 Facebook 的首页,但我始终只能获取移动设备的 HTML 代码,而不是正常浏览器版本(在我的情况下是 Firefox 5.0)。 我这样设置 User Agent:doc = Jsoup.connect(url) .userAgent("Mozil...

46得票8回答
页面内容使用JavaScript加载,而Jsoup无法识别。

页面上的一个区块是由JavaScript填充的,但是使用Jsoup加载页面后,没有该信息。在解析页面时,有没有办法获取由JavaScript生成的内容? 无法在此处粘贴页面代码,因为它太长了:http://pastebin.com/qw4Rfqgw 这是我需要的元素:<div id=...

46得票7回答
如何为Jsoup添加代理支持?

我是Java的初学者,我的第一个任务是解析一些10,000个网址并从中提取一些信息,为此我使用了Jsoup,并且它运行良好。 但现在我想添加代理支持。这些代理还有用户名和密码。

43得票2回答
连接错误:"org.jsoup.UnsupportedMimeTypeException: Unhandled content type"

当我尝试使用jsoup打开链接进行解析时,出现了错误。 连接命令:Document doc = Jsoup.connect("http://www.rfi.ro/podcast/emisiune/174/feed.xml") .timeout(10 * 100...

39得票3回答
如何使用jsoup解析HTML表格?

我正在尝试使用jsoup解析HTML。这是我第一次使用jsoup,并且我也阅读了一些关于它的教程。下面是我正在尝试解析的HTML表格 - 如果你看到我的下表,它现在有三个 tr (我缩短了它只为了理解目的,但通常会更多)。现在我想从下面的表中提取 Cluster Name 和相应的 host...