使用Python进行Twitter页面网络爬虫

Question

使用Python进行Twitter页面网络爬虫

4

使用我的Twitter开发者凭据，我从新闻渠道获取Twitter API。现在我想使用包含Twitter API数据的URL访问新闻源。我尝试使用BeautifulSoup和requests获取Twitter页面的内容。但是我一直收到错误消息“We've detected that JavaScript is disabled in your browser. Would you like to proceed to legacy Twitter?” 我清理了浏览器并尝试了每个浏览器。但是得到相同的响应。请帮助解决这个问题。

from bs4 import BeautifulSoup
import requests

url = 'https://twitter.com/i/web/status/1283691878588784642'
# get contents from url

content = requests.get(url).content

# get soup
soup = BeautifulSoup(content,'lxml')

- Cordelia

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Paul595 · Accepted Answer

当你运行脚本或使用GUI网页浏览器访问时，是否遇到“我们检测到您的浏览器已禁用JavaScript。您是否要继续使用传统Twitter？”的错误？如果是，您尝试过通过传统方式获取数据吗？

如果您在运行脚本时遇到此错误，则无法像清除浏览器缓存等方式解决问题。解决此问题的唯一方法是找到另一种访问Twitter页面的方式。

从我的经验来看，最简单的解决方法是使用FireFox的gecko驱动程序。这样Twitter就可以获得所需的所有功能。