鱼C论坛

 找回密码
 立即注册
查看: 363|回复: 5

[学习笔记] [爬虫]记第二次爬虫------词霸翻译

[复制链接]
最佳答案
2 
发表于 2018-1-13 17:20:44 | 显示全部楼层 |阅读模式

马上注册加入鱼C,享用更多服务吧^_^

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
终于开启了爬虫路,然后大致方向是全栈,最后希望能走到机器学习

之前本来打算爬百度翻译的,结果一直报错  不能正常爬取,听ZLOE 大佬启发, 换了一个翻译网站练手,

流程.png


爬取目标:查询到目标词性,翻译,音标
目标网址:http://www.iciba.com/index.php

1.gif

成品图


爬虫重要的还是爬之前的网页分析,分析到位了,爬虫写起来才舒服,关于分析网页,我也是个菜鸟,还是用浏览器的开发工具 找找get啊 post啊  还遇到过xhr和doc  只能说爬的越多,越熟能生巧吧

这次关于程序的写法上,用到了这些:
json数据字典化:

字典化.png
通常json字典化都是这样的:
data3 = json.loads(json_str)
但是这样需要import json模块,按照上图方式,不引入json模块也可以直接字典化

Python join()方法:
Python join() 方法用于将序列中的元素以指定的字符连接生成一个新的字符串。
字符串拼接.png

异常处理:
try......except Exception
异常处理.png

这个处理是为了防止有些不存在的单词引发的报错......emmmmm我的原意是这个意思.
上一期链接:http://bbs.fishc.com/thread-103008-1-1.html
同上次,附源码,谢谢赏脸
游客,如果您要查看本帖隐藏内容请回复

签名档.png
最佳答案
31 
发表于 2018-1-13 19:05:33 | 显示全部楼层
好强的样子!如果能把发音也爬下来就好了~
最佳答案
0 
发表于 2018-1-13 20:16:30 | 显示全部楼层
陆陆陆
最佳答案
0 
发表于 2018-1-13 21:57:18 | 显示全部楼层
楼主666啊 感谢楼主
最佳答案
2 
 楼主| 发表于 2018-1-13 22:22:15 | 显示全部楼层
像番茄加两个蛋 发表于 2018-1-13 19:05
好强的样子!如果能把发音也爬下来就好了~

音频也可以爬,  其实找到了音标,发音就在旁边 只是我没有想好这个音标怎么和发音放一起 所以就没有爬音标
TIM截图20180113222149.png
最佳答案
0 
发表于 2018-1-15 10:53:39 | 显示全部楼层
谢谢谢大佬
*滑块验证:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

小甲鱼强烈推荐上一条 /1 下一条

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备11014136号 )

GMT+8, 2018-7-17 04:12

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表