鱼C论坛

 找回密码
 立即注册

书中爬DMOZ网站例子修改

已有 703 次阅读2017-3-17 14:13 |个人分类:学习笔记

import scrapy

from tutoria.items import DmozItem

class DmozSpider(scrapy.Spider):
name = "dmoz"
allowed_domains =["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
sel = scrapy.selector.Selector(response)
sites = sel.xpath('//div[@class="site-item "]/div[@class="title-and-desc"]')
items = []
for site in sites:
item = DmozItem()
item['title'] = site.xpath('a/div/text()').extract()
item['link'] = site.xpath('a/@href').extract()
item['desc'] = site.xpath('div[@class="site-descr "]/text()').extract()[0].strip()
items.append(item)
return items

由于网站修改,书中代码已经失效,无法爬取实际信息
修改选择器匹配加深记忆

路过

鸡蛋

鲜花

握手

雷人

全部作者的其他最新日志

评论 (0 个评论)

facelist

您需要登录后才可以评论 登录 | 立即注册

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-3-28 17:37

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

返回顶部