免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2224 | 回复: 7
打印 上一主题 下一主题

使用re.sub(),如何将微博数据“@xx”替换成“@...” [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-08-06 14:44 |只看该作者 |倒序浏览
本帖最后由 linlone 于 2014-08-06 14:46 编辑
  1. data = "@t @bb @nn:@tt:@oo @xy"
  2. ddata2 = re.sub(ur'(?<=@)(.+?)(?=[ |:])', '...',   data)
  3. print ddata2
复制代码
以上语句执行之后,输出:
  1. @... @... @...:@...:@... @xy
复制代码
最后那个xy没有替换成“...”,如何解决呢?



论坛徽章:
0
2 [报告]
发表于 2014-08-06 14:53 |只看该作者
  1. ddata2 = re.sub(r'(?<=@)[^ :]+', '...',   data)
复制代码
改成这样。

论坛徽章:
0
3 [报告]
发表于 2014-08-06 15:22 |只看该作者
本帖最后由 linlone 于 2014-08-06 15:23 编辑

回复 2# zerostudy


    牛,搞定了

另外:
  1. data = "@t@bb @nn//@tt:@oo:@xy"
  2. ddata2 = re.sub(ur'(?<=@)[^@ ::/]+', '...',   data)
  3. print ddata2
复制代码
输出:
  1. @...@... @...//@...:@...@...
复制代码
为什么倒数第二个@中的全角“:”在输出中丢失了呢?
我期望输出:
  1. @...@... @...//@...:@...:@...
复制代码

论坛徽章:
0
4 [报告]
发表于 2014-08-06 15:41 |只看该作者
  1. ddata2 = re.sub(r'(?<=@).*?(?=:| |/|:|@)', '...',   data)
复制代码
还是改成你第一个的那样。估计[]里面只接收acs码的字符,要是宽字符,应是要用\x 这种方式。

论坛徽章:
0
5 [报告]
发表于 2014-08-06 16:00 |只看该作者
回复 4# zerostudy


    改成这样就ok了:
  1. data = "@t@bb @nn//@tt:@oo:@xy"
  2. ddata2 = re.sub(r'(?<=@)[^@ ::/]+', '...',   data)
  3. print ddata2
复制代码

论坛徽章:
33
荣誉会员
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT运维版块每日发帖之星
日期:2016-04-17 06:23:27操作系统版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-24 06:20:0015-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59
6 [报告]
发表于 2014-08-06 17:13 |只看该作者
re.UNICODE ?

论坛徽章:
0
7 [报告]
发表于 2014-08-06 20:05 |只看该作者
本帖最后由 linlone 于 2014-08-06 20:09 编辑
  1. data = "@bb @李欣毅V-香舍网”资和“你的"
  2. ddata2 = re.sub(r'(?<=@)[^ “]+', '...',   data)
  3. print ddata2

  4. 输出:@--- @---“你的

  5. 我期望输出:@--- @---”资和“你的

复制代码
这个问题如何解决呢

论坛徽章:
0
8 [报告]
发表于 2014-08-06 20:29 |只看该作者
回复 7# linlone


    解决了,原来是“”写反了。下面这样就可以了:
  1. data = "@bb @李欣毅V-香舍网”资和“你的"
  2. ddata2 = re.sub(r'(?<=@)[^ “”]+', '...',   data)
  3. print ddata2
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP