39得票1回答
如何在Talend中使用Java解析(来自先前生成的.txt文件的)数据?

我在Talend中有一个流程,可以获取页面的搜索结果,保存HTML并将其写入文件,如下所示: 起初,我使用Java从HTML文件中解析日期的两步过程。以下是代码:它可以正常工作并将其写入mysql数据库。以下是基本上完成此操作的代码。(我是个初学者,对于缺乏优雅表示抱歉) packag...

38得票1回答
如何使用jsoup解析XML

我正在尝试使用jsoup解析XML,但是我找不到任何关于这个任务的示例。我的XML文档看起来像这样:<?xml version="1.0" encoding="UTF-8"> <tests> <test> &l...

38得票4回答
Jsoup:如何获取图片的绝对URL?

在jsoup中是否有一种方法可以提取出图片的绝对URL,就像我们可以获取链接的绝对URL一样?考虑以下在http://www.example.com/中找到的图像元素<img src="images/chicken.jpg" width="60px" height="80px"> ...

36得票2回答
我该如何使用JSoup下载图片?

我已经知道了图片的位置,但为了简单起见,我希望使用JSoup本身来下载图片。(这是为了简化获取cookies、referrer等操作。) 目前我已经有了以下内容://Open a URL Stream Response resultImageResponse = Jsoup.connect(i...

34得票3回答
Jsoup选择和迭代所有元素

我将通过jsoup连接到一个url,并获取其所有内容,但问题是如果我选择了像这样的内容:doc.select("body") 它返回的是单个元素,但我想获取页面上的所有元素并一个接一个地迭代它们,例如:<html> <head><title>Test<...

33得票2回答
使用Jsoup选择具有多个类的div

我正在尝试使用Jsoup选择具有多个类的<div>:<div class="content-text right-align bold-font">...</div> 据我理解,进行此操作的语法应该是:document.select("div.content...

33得票4回答
jsoup支持xpath吗?

目前正在进行一些关于向jsoup添加xpath支持的工作 https://github.com/jhy/jsoup/pull/80。 是否已经生效? 如何使用它?

31得票3回答
Jsoup HTTPS抓取网页时如何处理Cookies

我正在尝试使用这个网站,在欢迎页面上收集我的用户名,以学习Jsoup和Android。 使用以下代码:Connection.Response res = Jsoup.connect("http://www.mikeportnoy.com/forum/login.aspx") .data...

29得票10回答
如何使用Jsoup通过HTTPS连接?

在使用HTTP时它可以正常工作,但是当我尝试使用HTTPS源时,就会抛出以下异常:10-12 13:22:11.169: WARN/System.err(332): javax.net.ssl.SSLHandshakeException: java.security.cert.CertPath...

29得票7回答
使用Jsoup.clean清除HTML内容时不添加HTML实体。

我正在使用某些方法清除一些不需要的HTML标签(例如<script>)String clean = Jsoup.clean(someInput, Whitelist.basicWithImages()); 问题在于它将例如å替换为å(这对我造成麻烦,因为它不是“...