87得票7回答
使用Python Requests处理JavaScript页面

我试图使用Python的Requests框架(http://docs.python-requests.org/en/latest/), 但是我要获取信息的页面使用JavaScript进行获取。 我已经尝试在网络上搜索解决方法,但由于使用“javascript”关键字搜索,我得到的大部分内容都...

86得票8回答
如何在Python脚本中运行Scrapy

我是Scrapy新手,正在寻找一种从Python脚本中运行它的方法。我找到了两个解释这个问题的来源: http://tryolabs.com/Blog/2011/09/27/calling-scrapy-python-script/ http://snipplr.com/view/6700...

83得票7回答
从网页中通过机器学习提取信息

我想在Python中从网页上提取特定类型的信息,例如邮政地址。虽然有成千上万种表单,但仍然可以以某种方式识别它们。由于表单数量众多,编写正则表达式甚至像文法一样的东西并使用解析器生成器进行解析可能非常困难。 因此,我认为我应该使用机器学习。如果我理解得正确,我应该能够创建一个数据样本,在其中...

82得票4回答
如何通过无头Chrome管理登录会话日志?

我想创建一个爬虫程序,它可以: 打开一个无头浏览器, 前往一个URL, 登录(使用 Steam OAuth), 填写一些输入框, 并点击两个按钮。 我的问题是每次无头浏览器的新实例都会清除我的登录会话,然后我需要不断地重新登录... 如何通过不同的实例保存登录状态?(使用带有无头 Chro...

82得票3回答
从谷歌搜索结果中爬取数据是否合法?

我想使用curl从Google获取搜索结果以检测潜在的重复内容。 是否存在被Google封禁的高风险?

82得票18回答
使用Python将HTML转换为文本

我正在尝试使用Python将HTML块转换为文本。 输入:<div class="body"><p><strong></strong></p> <p><strong></strong...

79得票7回答
Selenium调试:元素在坐标点(X,Y)处无法点击。

我尝试使用Selenium来爬取这个网站。 我想点击"下一页"按钮,为此我执行以下操作: driver.find_element_by_class_name('pagination-r').click() 它适用于许多页面,但并非所有页面都适用,我遇到了这个错误。 WebDriver...

77得票7回答
在Google Chrome扩展程序中进行网络爬虫(JavaScript + Chrome APIs)

如何使用JavaScript和其他可用技术在Google Chrome扩展程序内部从未打开的标签页中执行Web Scraping,也可以使用其他JavaScript库。 重要的是将爬取内容伪装成正常的Web请求,没有任何关于AJAX或XMLHttpRequest的指示,例如X-Reques...

76得票10回答
使用Java进行网页抓取

我找不到任何好的基于Java的网络爬虫API。我需要爬取的网站也没有提供任何API;我想使用一些pageID迭代遍历所有网页,并提取它们DOM树中的HTML标题/其他内容。 除了网络爬虫,还有其他方法吗?

75得票4回答
在Chrome中,简单的jQuery选择器只选择第一个元素..?

我对jQuery还不太熟悉,请原谅我比较迟钝。我想通过Chrome的JS控制台选择特定页面上的所有<td>元素: $('td') 然而,当我这样做时,我得到以下输出:<td>Apples</td> jQuery不应该返回一个带有<td>标记的...