我将从电子表格中提取大约10万个值,并获取前几个结果以查看它们是http还是https。这个脚本运行良好(对于我的目的而言足够好),但在循环的第70次迭代后,我会收到503错误。
您有任何想法/建议如何获取所需的查询量吗?
代码:
您有任何想法/建议如何获取所需的查询量吗?
代码:
import pandas as pd
import re
import time
library_list = pd.read_csv("PLS_FY2014_AE_pupld14a.csv")
zero = 0
with_https = 0
for i in library_list['LIBNAME']:
for url in search(library_list['LIBNAME'][zero], num = 1, start = 0, stop = 1):
time.sleep(5)
zero += 1
print(zero)
if 'https' in url:
with_https += 1
search
函数中还有一个pause
参数(例如:search(query, tld='com', lang='en', num=10, start=0, stop=None, pause=2.0)
),它可能会对暂停起到一定作用,但请注意文档中的说明:pause (float) - 在HTTP请求之间等待的时间间隔。间隔时间过长会导致搜索变慢,但间隔时间过短可能会导致Google封锁您的IP地址。具体情况可能有所不同! - chickity china chinese chicken