[已解决]爬虫爬彼岸图网高清壁纸有机会吗？？？

a1296715528 · 发表于 2018-7-12 21:46:34

您需要登录才可以下载或查看，没有账号？立即注册

x

最近找到个高清壁纸网：彼岸图网，但是每天只能下一张图片，很僵硬想利用爬虫爬一下，但是技术有限我爬不出4k高清壁纸原图，所以来此请教各位大佬

最佳答案

罗同学

2018-7-14 19:17:08

这个可以爬，你说的每天只能爬一张，我开始也遇到了这个问题，开始用beautifulsoup提取图片链接，怎么试都只能提取到第一个，后来用正则表达就可以提取整个网页的图片连接，这个代码的主函数没有修改，只能爬第一页的，因为第一页的地址和后面的规律不一样，楼主可以自己修改一下爬后面的页面的

import re
import requests
from bs4 import BeautifulSoup as bs
import os
def url_open(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER'}
res = requests.get(url, headers=headers)
return res
def findlinks(res):
soup = bs(res.text, 'lxml')
target = soup.find_all('ul', class_="clearfix")
list = re.findall(r'href="(.*?\.html)"', str(target))
return list
def find_img(list):
urlhead = 'http://pic.netbian.com'
img = []
for each in list:
img.append(urlhead + each)
return img
def save_img(img):
urlhead = 'http://pic.netbian.com'
for each in img:
res = url_open(each)
soup = bs(res.content, 'lxml')
link = re.findall(r'src="(/.*\.jpg)"', str(soup))
url = urlhead + link[0]
filename = url.split('/')[-1].replace('.html', '')
img = url_open(url)
with open(filename, 'wb') as f:
f.write(img.content)
if __name__ == '__main__':
# os.mkdir('彼岸图')
os.chdir('彼岸图')
url = 'http://pic.netbian.com/4kyingshi/index.html'
res = url_open(url)
list = findlinks(res)
img = find_img(list)
save_img(img)

复制代码

彼岸图.zip (826 Bytes, 下载次数: 13)

罗同学 · 发表于 2018-7-14 19:17:08

这个可以爬，你说的每天只能爬一张，我开始也遇到了这个问题，开始用beautifulsoup提取图片链接，怎么试都只能提取到第一个，后来用正则表达就可以提取整个网页的图片连接，这个代码的主函数没有修改，只能爬第一页的，因为第一页的地址和后面的规律不一样，楼主可以自己修改一下爬后面的页面的

import re
import requests
from bs4 import BeautifulSoup as bs
import os
def url_open(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER'}
res = requests.get(url, headers=headers)
return res
def findlinks(res):
soup = bs(res.text, 'lxml')
target = soup.find_all('ul', class_="clearfix")
list = re.findall(r'href="(.*?\.html)"', str(target))
return list
def find_img(list):
urlhead = 'http://pic.netbian.com'
img = []
for each in list:
img.append(urlhead + each)
return img
def save_img(img):
urlhead = 'http://pic.netbian.com'
for each in img:
res = url_open(each)
soup = bs(res.content, 'lxml')
link = re.findall(r'src="(/.*\.jpg)"', str(soup))
url = urlhead + link[0]
filename = url.split('/')[-1].replace('.html', '')
img = url_open(url)
with open(filename, 'wb') as f:
f.write(img.content)
if __name__ == '__main__':
# os.mkdir('彼岸图')
os.chdir('彼岸图')
url = 'http://pic.netbian.com/4kyingshi/index.html'
res = url_open(url)
list = findlinks(res)
img = find_img(list)
save_img(img)

复制代码

彼岸图.zip (826 Bytes, 下载次数: 13)

罗同学 · 发表于 2018-7-14 19:19:53

另外没有登陆，不喜欢用QQ去登陆这些奇奇怪怪的网站，不知道是不是登陆后有更高清的图、爬到的都是1000多分辨率的，登陆的话楼主自己摸索一下

效果图

a1296715528 · 发表于 2018-7-15 14:51:18

罗同学发表于 2018-7-14 19:19
另外没有登陆，不喜欢用QQ去登陆这些奇奇怪怪的网站，不知道是不是登陆后有更高清的图、爬到的都是1000多分 ...

首先非常感谢您在百忙之中为我解答
您的代码我看了相当OK
当然如果只是对于1000多分辨率的来说
但是我想爬的是4K图片但是我又找不到图片源头可能是在对面服务器里面
看图就明了了

但是还是非常谢谢您的代码！

新人 · 发表于 2018-7-16 17:22:56

你这个要求有点难啊首先你得有个无限制下载图片得会员少年

罗同学 · 发表于 2018-7-17 18:46:11

本帖最后由罗同学于 2018-7-17 19:24 编辑

新人发表于 2018-7-16 17:22
你这个要求有点难啊首先你得有个无限制下载图片得会员少年

是的呢、研究了一下、可以爬出来图片里的下载链接，但是还是需要会员账户，只有链接不登陆也没有用。

a1296715528 · 发表于 2018-7-17 18:51:24

罗同学发表于 2018-7-17 18:46
是的呢、研究了一下、可以爬出来图片你的下载链接，但是还是需要会员账户，只有链接不登陆也没有用。

ummm 对是我错了

抱歉

blUesstyle · 发表于 2018-7-17 22:05:16

requests 和bs4 module都没有呀是什么情况

a1296715528 · 发表于 2018-7-18 12:33:11

blUesstyle 发表于 2018-7-17 22:05
requests 和bs4 module都没有呀是什么情况

这个是要额外安装的 requests模块和BeautifulSoup模块你可以上网搜一下教程

账号		自动登录	找回密码
密码			立即注册

[已解决]爬虫爬彼岸图网高清壁纸 有机会吗？？？