感觉自己把自己带进坑了，又错了。

要学习 · 发表于 2017-11-20 21:06:56

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由要学习于 2017-11-20 21:10 编辑

照我的理解。
既然已经循环分组输出网页链接了，
那我在这个循环下直接加读取网页的代码不就好了。
结果不是这样的。。

直接报错了。

====================== RESTART: C:\Python27\1 - 副本.py ======================
http://www.baidu.com/20170401.html
http://www.baidu.com/20170402.html
http://www.baidu.com/20170403.html

Traceback (most recent call last):
File "C:\Python27\1 - 副本.py", line 23, in <module>
r = requests.get(url, headers=headers, timeout=300)
NameError: name 'url' is not defined

import requests
import re
import pandas as pd
from datetime import datetime
def get_url():
url = 'http://www.baidu.com/' + date + '.html'
return url
def datelist(beginDate, endDate):
date_l=[datetime.strftime(x,'%Y%m%d') for x in list(pd.date_range(start=beginDate, end=endDate))]
return date_l
if __name__ == '__main__':
i = 1
all_date = datelist("20170401", "20170403")
for date in all_date:
print get_url()
if i % 3 == 0:
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x86) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36 Edge/15.15063'}
r = requests.get(url, headers=headers, timeout=300)
r = requests.get(url)
html = r.text
i+= 1
print html

复制代码

这次头大了。

我这次错在哪里了呢？
请各位老师解答一下

原本的意思是，，，
由于之前爬取的站点的网页是爬取超过200页就会得到出错。200页内的数据就正确，
所以才想能不能这样：比如我要爬取三百页的数据，我就分成3组来爬取，每组一百页即可
这次问题好像偏离了。
各位老师指点指点

BngThea · 发表于 2017-11-20 21:17:42

你把你17行调用get_url函数的值存到一个列表里，然后在21行中将第一个参数改成上面列表中对应的值即可

要学习 · 发表于 2017-11-20 21:31:31

本帖最后由要学习于 2017-11-20 21:32 编辑

BngThea 发表于 2017-11-20 21:17
你把你17行调用get_url函数的值存到一个列表里，然后在21行中将第一个参数改成上面列表中对应的值即可

import requests
import re
import pandas as pd
from datetime import datetime
qq = []
def get_url():
url = 'http://www.baidu.com/' + date + '.html'
return url
def datelist(beginDate, endDate):
date_l=[datetime.strftime(x,'%Y%m%d') for x in list(pd.date_range(start=beginDate, end=endDate))]
return date_l
if __name__ == '__main__':
i = 1
all_date = datelist("20170401", "20170403")
for date in all_date:
qq = get_url()
if i % 3 == 0:
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x86) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36 Edge/15.15063'}
r = requests.get(qq, headers=headers, timeout=300)
r = requests.get(qq)
html = r.text
i+= 1
print html

复制代码

老师好。。我这样改。。（06.09.23.24行）
但只能打印出一页的源码
循环没起作用

BngThea · 发表于 2017-11-20 21:55:11

用一个列表存放每次获取的url，也就是你代码中的qq
然后在下面的时候从列表中分别取出对应的即可

要学习 · 发表于 2017-11-20 22:21:57

BngThea 发表于 2017-11-20 21:55
用一个列表存放每次获取的url，也就是你代码中的qq
然后在下面的时候从列表中分别取出对应的即可

然后在下面的时候从列表中分别取出对应的即可

复制代码

这个是要再写一个for 循环。分别取出列表里的网址吗？

我是要每次爬取三个网页。爬取完。再爬取另外三个

当然我没加上正则那段

要学习 · 发表于 2017-11-21 14:59:31

各位老师下午好

要学习 · 发表于 2017-11-21 19:42:46

我还是没研究出来。。。

要学习 · 发表于 2017-11-22 11:17:54

一页一页来读会比一次性多一批网页慢吗？

要学习 · 发表于 2017-11-22 23:27:33

晚上好各位老师

要学习 · 发表于 2017-11-24 20:27:56

晚上好各位老师

账号		自动登录	找回密码
密码			立即注册