|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
这是一个截取网页图片的代码,目的是在html中,搜索网页地址然后下载,但是图片地址后缀,jpg找不到
我写好之后,发现前缀可以找到,但是.jpg找不到。于是我专门把网页代码下载下来搜索关键字,‘.jpg’ 发现整个文档都没有。我反复的核对教程感觉没有写的不一样,这是为什么啊
http://jandan.net/ooxx/
- import urllib.request
- import os
- def dakai(url):
- req=urllib.request.Request(url)
- req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0')
- response=urllib.request.urlopen(req)
- html=response.read()
- return html
- def get_url(url):
- html=dakai(url).decode('utf-8')
- a=html.find("current-comment-page")+23
- b=html.find(']',a,a+50)
- return html[a:b]
- def get_imgadd(url):
- html=dakai(url).decode('utf-8')
- a=html.find('img src=')
- img_address=[]
- while a!=-1:
- print('找到了a')
- b=html.find('.jpg',a,a+500)
- if b!=-1:
- print('找到了b')
- img_address.append(html[a+9:b+4])
- else:
- print('没找到')
- b=a+20
- a=html.find('img src=',b)
- for i in img_address:
- print(i)
- return img_address
- def save_img(folder,img_ji):
- for each in img_ji:
- fliename=each.split('/')[-1]
- with open(fliename,'wb') as f:
- img=dakai(each)
- f.write(img)
- def download_mm(folder='OOXX',page=10):
- os.mkdir(folder)
- os.chdir(folder)
- url='http://jandan.net/ooxx/'
- get_num=int(get_url(url))
- for i in range(page):
- if i==0:
- get_num-=i
- else:
- get_num-=1
- address=url+'page-'+str(get_num)+'#comments'
- img_quan=get_imgadd(address) #将图片地址存在一个元组里
- save_img(folder,img_quan)
- if __name__=='__main__':
- download_mm()
复制代码
|
|