从互联网上使用Java获取数据

Question

从互联网上使用Java获取数据

3

你好，我是Java的新手，想从互联网上获取一些数据。例如，如果我想搜索谷歌并存储结果数量和搜索时间。我考虑使用jsoup DOM功能，但我无法弄清楚如何获取特定元素的值。

如果我使用Google Chrome来检查元素，我感兴趣的部分是

<div id="resultStats">
About 6,480,000,000 results
<nobr>  (0.26 seconds)&nbsp;</nobr>
</div>

这是我能够工作的唯一方法，但文档中并没有包括该元素。

import org.jsoup.nodes.Document;


import java.io.IOException;

public class google_time {
    public static void main(String[] args) throws IOException {
        String url = "https://www.google.com/webhp?hl=en&tab=Tw&q=data#hl=en&newwindow=1&output=search&sclient=psy-ab&q=data&oq=data&gs_l=hp.12...0.0.0.1682.0.0.0.0.0.0.0.0..0.0.les%3B..0.0...1c.Q9UUbwkFy-I&pbx=1&bav=on.2,or.r_gc.r_pw.r_cp.r_qf.&fp=6a12f0870d3ff179&biw=1066&bih=483";

        Document doc = Jsoup.connect(url).get();
        System.out.println(doc);

    }
}

那么我该如何仅获得resultStatic和其中的文本呢？

- Michele87

1

jsoup提供了DOM（文档对象模型），您可以浏览它，尝试阅读这里的示例：http://jsoup.org/cookbook/extracting-data/dom-navigation - MadProgrammer

还要看看这个，特别是关于jquery的部分和示例。 - MadProgrammer

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Sreenath S · Accepted Answer

首先是问题：

看起来url https://www.google.com/webhp 用于动态渲染谷歌搜索页面。即使用AJAX获取搜索结果，然后使用javascript将其呈现在页面上。由于jsoup不是浏览器，也不运行javascript，因此使用jsoup获取的html将没有任何搜索结果。

因此，我们可以使用https://www.google.com/search。这将呈现一个普通的带有结果的html页面，而不需要任何AJAX hooplah。但是，谷歌仍然会阻止非浏览器来源的请求，因此您必须像这样向您的Jsoup请求添加UserAgent头：

Jsoup.connect(url)
    .userAgent("Mozilla/5.0 (Windows; U; WindowsNT 5.1;"+
        " en-US; rv1.8.1.6) Gecko/20070725 Firefox/2.0.0.6")
    .get();

你的最终代码应该长成这个样子：

import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
import org.jsoup.nodes.Element;
import org.jsoup.Jsoup;
import java.util.Iterator;
import java.io.IOException;

public class GoogleScraper {
    public static void main(String[] args) throws IOException {
        String url = "https://www.google.com/search?"+
        "hl=en&tab=Tw&q=data#hl=en&newwindow=1&"+
        "output=search&sclient=psy-ab&q=data&oq=data"+
        "&gs_l=hp.12...0.0.0.1682.0.0.0.0.0.0.0.0..0.0.les"+
        "%3B..0.0...1c.Q9UUbwkFy-I&pbx=1&bav=on.2,"+
        "or.r_gc.r_pw.r_cp.r_qf.&fp=6a12f0870d3ff179&biw=1066&bih=483";

        try{

            Document doc = Jsoup.connect(url)
            .userAgent("Mozilla/5.0 (Windows; U; WindowsNT 5.1;"+
                " en-US; rv1.8.1.6) Gecko/20070725 Firefox/2.0.0.6")
            .get();

            //Prints the whole markup
            //System.out.println(doc.toString());

            Elements resultDivElems = doc.select("div#resultStats");
            Iterator<Element> itr = resultDivElems.iterator();

            //Prints only what you need, ie the result details
            while(itr.hasNext()){
                System.out.println(((Element)itr.next()).text());
            }
        }catch(Exception e){
            e.printStackTrace();
        }
    }
}