[已解决]想去一个小说网站爬小说，但是点击第一次弹出的是广告，小说链接匹配不上怎么办

石头怪 · 发表于 2017-4-5 16:43:22

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由石头怪于 2017-4-5 16:45 编辑

import urllib.request
import os
import re

def open_url(url):
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36')
response = urllib.request.urlopen(url)

html = response.read()
return html
def find_num(url):
html = open_url(url).decode('utf-8')

note_num = re.findall(r'\d{5}\.html',html)

return note_num

def get_downurl(note_url):

print(note_url)
html = open_url(note_url).decode('utf-8')
p = r'<a class="downButton" href="([^"]+\.txt)"'

download_url = re.findall(p,html)

print(download_url)#测试

def save_note(download_url):
pass

def downqisuu(folder='都市'):
os.mkdir(folder)
os.chdir(folder)

url = 'http://www.qisuu.com/soft/sort04/'
url1 = 'http://www.qisuu.com/'

note_num = find_num(url)
for each in note_num:
note_url = url1 + each

download_url = get_downurl(note_url)

save_note(download_url)

if __name__ == '__main__':
downqisuu()

最佳答案

月排行榜 / 总排行榜

gopythoner

2017-4-5 17:19:28

你的正则错了，（因为在上班没法用Python试）我用在线的正则试了一下，根本匹配不到下载链接
p = r'<a class="downButton" href="([^"]+\.txt)"'这个是错误的
你可以改成这样：

p = "href='(.*?\.txt)'"

复制代码

把这个代入进去，提取到的应该是下面这种格式

http://dzs.qisuu.com/txt/时空大掌柜.txt

复制代码

你自己试试看吧
其实在试探的时候可以自己先用在线正则工具试试能发找到你要的信息
用这个网站的可以http://tool.oschina.net/regex/

跳转到最佳答案楼层

新手·ing · 发表于 2017-4-5 17:06:26

我试了一下，给了我一个链接

http://www.qisuu.com/35299.html

复制代码

进去以后是一个电影巨匠的网站

gopythoner · 发表于 2017-4-5 17:19:28

这个最佳答案由 gopythoner 给出，感谢 gopythoner 的回答。

单击隐藏图章

你的正则错了，（因为在上班没法用Python试）我用在线的正则试了一下，根本匹配不到下载链接
p = r'<a class="downButton" href="([^"]+\.txt)"'这个是错误的
你可以改成这样：

p = "href='(.*?\.txt)'"

复制代码

把这个代入进去，提取到的应该是下面这种格式

http://dzs.qisuu.com/txt/时空大掌柜.txt

复制代码

你自己试试看吧
其实在试探的时候可以自己先用在线正则工具试试能发找到你要的信息
用这个网站的可以http://tool.oschina.net/regex/

石头怪 · 发表于 2017-4-5 17:21:11

新手·ing 发表于 2017-4-5 17:06
我试了一下，给了我一个链接

进去以后是一个电影巨匠的网站

这个链接是对的，但是下载的链接匹配不上，因为有广告，现在就是不知道怎么过滤广告后获得下载链接

新手·ing · 发表于 2017-4-5 17:22:18

石头怪发表于 2017-4-5 17:21
这个链接是对的，但是下载的链接匹配不上，因为有广告，现在就是不知道怎么过滤广告后获得下载链接

@ooxx7788 召唤爬虫大佬~

账号		自动登录	找回密码
密码			立即注册