鱼C论坛

 找回密码
 立即注册
查看: 2452|回复: 6

[已解决]正则表达式重复匹配前一个相同的字符串,怎么解决?

[复制链接]
发表于 2017-4-5 16:15:00 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 编程逸 于 2017-4-6 10:40 编辑
  1. html ="""
  2. <a href="123" target="_self">MMMM;<a href="560" target="_self"> 陈,<a href="573" target="_self">YYY,<a href="230" target="_self">&nbsp张
  3. """
  4. regex = re.compile(r'href=".+?".{5,30}张')
  5. href = regex.findall(html)
  6. print(href)
复制代码

我只想要
  1. href="230" target="_self">&nbsp张
复制代码
就行了,但是匹配结果是
  1. ['href="123" target="_self">MMMM;<a href="560" target="_self"> 陈,<a href="573" target="_self">YYY,<a href="230" target="_self">&nbsp张']
复制代码

请问我怎样才能单独把
  1. href="230" target="_self">&nbsp张
复制代码
匹配出来

------------------------------------------------------------------------------------------------------------------------------
感谢gopythoner提供思路,正则需要先匹配href="230",把href="230"的规则用正则表达式写出来,而不能用.+?来匹配,任意符号代替是不行的,会匹配全部
  1. html ="""
  2. <a href="/publish/1-23_.html" target="_self">MMMM;<a href="/publish/5-60_.html" target="_self"> 陈,<a href="/publish/57-3_.html" target="_self">YYY,<a href="/publish/23-0_.html" target="_self">&nbsp张
  3. """
  4. regex = re.compile(r'href="[\w/;?:@&=+$ ,-_.!~*\'()<>#%"]+?".{5,30}张')
  5. href = regex.findall(html)
  6. print(href)
复制代码

href="[\w/;?:@&=+$ ,-_ . !~*\'()<>#%\"]"是匹配网址,网址貌似会出现的符号就这么多吧,其中'和"可能需要转移符号\来消除特殊意义
------------------------------------------------------------------------------------------------------------------------------
我发现其实并不是匹配href="230",而是不要匹配相似语句中的分隔符号,上面为什么匹配
  1. <a href="/publish/23-0_.html" target="_self">&nbsp张
复制代码
很容易,但是匹配
  1. <a href="/publish/5-60_.html" target="_self"> 陈
复制代码
又会把前面的全部匹配出来,因为“陈”这个语句前面的分隔符是英文的分号,在匹配网址的范围内所以会被匹配,而“张”的语句前面分隔是逗号,这个中文的逗号不URL的范围内,而中文的逗号属于任意符号[.]的范围所以一开始会匹配到全部内容
所以匹配不需要那么麻烦了,直接把正则表达式改为:
  1. regex = re.compile(r'href="[^;]+?".{5,30}陈')
复制代码
即可把陈分隔出来
最佳答案
2017-4-5 17:42:12
本帖最后由 gopythoner 于 2017-4-5 17:44 编辑
  1. regex = re.compile(r'(href="\d*".{5,30}张)')
复制代码

改成这样就行了
这个正则的最重要的地方在于href="数字"
就是这个数字,这个里面一定要先定为数字,才会只匹配最后一段,不然就是全部了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-4-5 16:33:13 | 显示全部楼层
  1. regex = re.compile(r'href=".+?"(.{5,30}张)')
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-4-5 16:47:12 | 显示全部楼层
  1. ['230" target="_self">&nbsp张']
复制代码
这是您的答案,但是我需要带上href=
另外就是假如230在长一点,例如fishcfishcfishcfishcfishc230,那怎么得到这个网址呢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-4-5 17:42:12 | 显示全部楼层    本楼为最佳答案   
本帖最后由 gopythoner 于 2017-4-5 17:44 编辑
  1. regex = re.compile(r'(href="\d*".{5,30}张)')
复制代码

改成这样就行了
这个正则的最重要的地方在于href="数字"
就是这个数字,这个里面一定要先定为数字,才会只匹配最后一段,不然就是全部了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-4-5 17:51:52 | 显示全部楼层

回帖奖励 +5 鱼币

还有个问题,楼主为啥要用我老婆的头像,你这是侵权知道你造吗
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-4-6 09:25:59 | 显示全部楼层
gopythoner 发表于 2017-4-5 17:42
改成这样就行了
这个正则的最重要的地方在于href="数字"
就是这个数字,这个里面一定要先定为数字,才 ...

涨姿势 感谢提供思路 问题已经解决了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-4-6 09:26:20 | 显示全部楼层
gopythoner 发表于 2017-4-5 17:51
还有个问题,楼主为啥要用我老婆的头像,你这是侵权知道你造吗

户口本交出来
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-3-29 09:47

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表