鱼C论坛

 找回密码
 立即注册
查看: 2598|回复: 5

[学习笔记] [爬虫]记第二次爬虫------词霸翻译

[复制链接]
发表于 2018-1-13 17:20:44 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
终于开启了爬虫路,然后大致方向是全栈,最后希望能走到机器学习

之前本来打算爬百度翻译的,结果一直报错  不能正常爬取,听ZLOE 大佬启发, 换了一个翻译网站练手,

流程.png


爬取目标:查询到目标词性,翻译,音标
目标网址:http://www.iciba.com/index.php

1.gif

成品图


爬虫重要的还是爬之前的网页分析,分析到位了,爬虫写起来才舒服,关于分析网页,我也是个菜鸟,还是用浏览器的开发工具 找找get啊 post啊  还遇到过xhr和doc  只能说爬的越多,越熟能生巧吧

这次关于程序的写法上,用到了这些:
json数据字典化:

字典化.png
通常json字典化都是这样的:
data3 = json.loads(json_str)
但是这样需要import json模块,按照上图方式,不引入json模块也可以直接字典化

Python join()方法:
Python join() 方法用于将序列中的元素以指定的字符连接生成一个新的字符串。
字符串拼接.png

异常处理:
try......except Exception
异常处理.png

这个处理是为了防止有些不存在的单词引发的报错......emmmmm我的原意是这个意思.
上一期链接:http://bbs.fishc.com/thread-103008-1-1.html
同上次,附源码,谢谢赏脸
游客,如果您要查看本帖隐藏内容请回复

签名档.png

评分

参与人数 1荣誉 +5 鱼币 +5 贡献 +3 收起 理由
小甲鱼 + 5 + 5 + 3 鱼C有你更精彩^_^

查看全部评分

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-1-13 19:05:33 | 显示全部楼层
好强的样子!如果能把发音也爬下来就好了~
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-1-13 20:16:30 | 显示全部楼层
陆陆陆
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-1-13 21:57:18 | 显示全部楼层
楼主666啊 感谢楼主
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

 楼主| 发表于 2018-1-13 22:22:15 | 显示全部楼层
像番茄加两个蛋 发表于 2018-1-13 19:05
好强的样子!如果能把发音也爬下来就好了~

音频也可以爬,  其实找到了音标,发音就在旁边 只是我没有想好这个音标怎么和发音放一起 所以就没有爬音标
TIM截图20180113222149.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-1-15 10:53:39 | 显示全部楼层
谢谢谢大佬
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-3-28 20:19

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表