从<a>标签中提取href的方法(使用Beautiful Soup)

5

我正在尝试从谷歌搜索结果中提取链接。检查元素告诉我,我感兴趣的部分具有“class = r”。第一个结果看起来像这样:

<h3 class="r" original_target="https://en.wikipedia.org/wiki/chocolate" style="display: inline-block;">
    <a href="https://en.wikipedia.org/wiki/Chocolate" 
       ping="/url?sa=t&amp;source=web&amp;rct=j&amp;url=https://en.wikipedia.org/wiki/Chocolate&amp;ved=0ahUKEwjW6tTC8LXZAhXDjpQKHSXSClIQFgheMAM" 
       saprocessedanchor="true">
        Chocolate - Wikipedia
    </a>
</h3>

为了提取“href”,我会这样做:
import bs4, requests
res = requests.get('https://www.google.com/search?q=chocolate')
googleSoup = bs4.BeautifulSoup(res.text, "html.parser")
elements= googleSoup.select(".r a")
elements[0].get("href")

但是我意外地得到了以下结果:
'/url?q=https://en.wikipedia.org/wiki/Chocolate&sa=U&ved=0ahUKEwjHjrmc_7XZAhUME5QKHSOCAW8QFggWMAA&usg=AOvVaw03f1l4EU9fYd'

我想要的是:

"https://en.wikipedia.org/wiki/Chocolate"

属性“ping”似乎让它变得混乱了。有什么想法吗?


也许可以查看原始源代码,因为Google可能有成千上万行的JavaScript代码,使响应在浏览器中看起来不同。 - avigil
2个回答

12

发生了什么?

如果你打印响应内容(即googleSoup.text),你会发现你得到了完全不同的HTML。页面源代码和响应内容不一致。

这并不是因为内容是动态加载的,即使在这种情况下,页面源代码和响应内容也是相同的。(但是您在检查元素时看到的HTML是不同的。)

造成这种情况的一个基本原因是Google识别出Python脚本并更改其响应。

解决方案:

您可以传递一个虚假的用户代理来使脚本看起来像是真正的浏览器请求。


代码:

headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'}

r = requests.get('https://www.google.co.in/search?q=chocolate', headers=headers)
soup = BeautifulSoup(r.text, 'lxml')

elements = soup.select('.r a')
print(elements[0]['href'])

输出:

https://en.wikipedia.org/wiki/Chocolate

资源:


0

正如其他答案所提到的,这是因为没有指定user-agent。默认的requestsuser-agentpython-requests,因此Google会阻止请求,因为它知道这是一个机器人而不是一个“真实”的用户访问。

User-agent通过将此信息添加到HTTP请求标头中来伪造用户访问。可以通过传递自定义标头检查您的user-agent)来完成:

headers = {
    'User-agent':
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.19582"
}
requests.get("YOUR_URL", headers=headers)

此外,为了获得更准确的结果,您可以传递URL参数
params = {
  "q": "samurai cop, what does katana mean",  # query
  "gl": "in",                                 # country to search from
  "hl": "en"                                  # language
  # other parameters 
}
requests.get("YOUR_URL", params=params)

代码和在线IDE中的完整示例来自另一个答案的代码将因为CSS选择器的更改而引发错误):

from bs4 import BeautifulSoup
import requests, lxml

headers = {
    'User-agent':
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.19582"
}

params = {
  "q": "samurai cop what does katana mean",
  "gl": "in",
  "hl": "en"
}

html = requests.get("https://www.google.com/search", headers=headers, params=params)
soup = BeautifulSoup(html.text, 'lxml')

for result in soup.select('.tF2Cxc'):
  title = result.select_one('.DKV0Md').text
  link = result.select_one('.yuRUbf a')['href']
  print(f'{title}\n{link}\n')

-------
'''
Samurai Cop - He speaks fluent Japanese - YouTube
https://www.youtube.com/watch?v=paTW3wOyIYw

Samurai Cop - What does "katana" mean? - Quotes.net
https://www.quotes.net/mquote/1060647

Samurai Cop (1991) - Mathew Karedas as Joe Marshall - IMDb
https://www.imdb.com/title/tt0130236/characters/nm0360481

...
'''

或者,您可以使用SerpApi的Google有机结果API来实现相同的功能。这是一个付费API,但也有免费计划。

在您的情况下,不同之处在于您只需要迭代结构化JSON并快速获取所需数据,而不是弄清为什么某些事情不像应该那样工作,然后随时间维护解析器。

集成代码:

import os
from serpapi import GoogleSearch

params = {
    "engine": "google",
    "q": "samurai cop what does katana mean",
    "hl": "en",
    "gl": "in",
    "api_key": os.getenv("API_KEY"),
}

search = GoogleSearch(params)
results = search.get_dict()

for result in results["organic_results"]:
  print(result['title'])
  print(result['link'])
  print()

------
'''
Samurai Cop - He speaks fluent Japanese - YouTube
https://www.youtube.com/watch?v=paTW3wOyIYw

Samurai Cop - What does "katana" mean? - Quotes.net
https://www.quotes.net/mquote/1060647
...
'''

免责声明,我是SerpApi的员工。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接