[已解决]爬图片的时候有图片能爬到，中间会有403报错，是什么原因呢

石头怪 · 发表于 2017-3-31 19:11:24

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import urllib.request
import os

def open_url(url):
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0')
response = urllib.request.urlopen(url)
html = response.read()
return html

def get_num(url):
html = open_url(url).decode('utf-8')
a = html.find('current-comment-page')+23
b = html.find(']',a)
return html[a:b]

def get_url(url):
html = open_url(url).decode('utf-8')
img_url = []
a = html.find('img src=')

while a != -1:
      b = html.find('.jpg',a,a+255)
      if b != -1:
         html = 'http:' + html[a+9:b+4]
         img_url.append(html)
      else:
         b = a+9
      a = html.find('img src=',b)
      return img_url

def save_img(img_url):
      for each in img_url:
         filename = each.split('/')[-1]
         with open(filename,'wb')as f:
            img = open_url(each)
            f.write(img)




def downloadmm(folder='ooxx',pages=20):
os.mkdir(folder)
os.chdir(folder)

url = 'http://jandan.net/ooxx/'

page_num = int(get_num(url))

for i in range(pages):
      page_num -=i

      page_url = url + 'page-' + str(page_num) + '#comment'

      img_url = get_url(page_url)

      save_img(img_url)



if __name__ == '__main__':
downloadmm()

服务器拒绝链接的话，和ip操作频繁有关吗，怎么自动获取代理IP呢？研究了一下午也没搞明白怎么获取IP

最佳答案

月排行榜 / 总排行榜

膜法记者

2017-4-1 16:42:31

本帖最后由膜法记者于 2017-4-1 16:44 编辑

楼主，我已经解决问题了，没有用代理，应该是get_url(url)函数的锅

这是我修改后的函数，使用了正则表达式

def findimg(page_url):
html = url_open(page_url).decode('utf-8')
img_str = r'<img src="(.*?\.jpg)'
img_address = re.findall(img_str,html)
print(img_address) #这一行用来测试
return img_address

复制代码

个人猜测应该是使用find导致url不完整，导致save_img(img_url)访问了错误的链接
这一点你可以print(img_url)查证

另外要注意得到的列表中的url没有'http:'，save_img(img_url)函数也要做相应修改
def save_img(img_url):
      for each in img_url:
         filename = each.split('/')[-1]
         with open(filename,'wb')as f:
            img = open_url('http:' + each)
            f.write(img)

跳转到最佳答案楼层

新手·ing · 发表于 2017-3-31 19:21:15

多弄几个ip
一个会蹦的

石头怪 · 发表于 2017-3-31 19:40:45

新手·ing 发表于 2017-3-31 19:21
多弄几个ip
一个会蹦的

加了几个代理还是不行

新手·ing · 发表于 2017-3-31 19:43:16

就是说弄一个循环，加上5以上的代理
如果服务器拒绝连接，就换另一个代理

膜法记者 · 发表于 2017-3-31 20:34:41

我也遇到了这个问题，同样的代码爬取无聊图却没事

膜法记者 · 发表于 2017-4-1 16:42:31

本帖最后由膜法记者于 2017-4-1 16:44 编辑

楼主，我已经解决问题了，没有用代理，应该是get_url(url)函数的锅

这是我修改后的函数，使用了正则表达式

def findimg(page_url):
html = url_open(page_url).decode('utf-8')
img_str = r'<img src="(.*?\.jpg)'
img_address = re.findall(img_str,html)
print(img_address) #这一行用来测试
return img_address

复制代码

个人猜测应该是使用find导致url不完整，导致save_img(img_url)访问了错误的链接
这一点你可以print(img_url)查证

另外要注意得到的列表中的url没有'http:'，save_img(img_url)函数也要做相应修改
def save_img(img_url):
      for each in img_url:
         filename = each.split('/')[-1]
         with open(filename,'wb')as f:
            img = open_url('http:' + each)
            f.write(img)

石头怪 · 发表于 2017-4-5 16:17:21

膜法记者发表于 2017-4-1 16:42
楼主，我已经解决问题了，没有用代理，应该是get_url(url)函数的锅

这是我修改后的函数，使用了正则表达 ...

我是换了User-Agent搞定的，估计应该还是防机器人设置的原因吧

账号		自动登录	找回密码
密码			立即注册