免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12
最近访问板块 发新帖
楼主: hothat007
打印 上一主题 下一主题

正则表达式书写问题 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2013-08-19 11:59 |只看该作者
回复 10# 一棵菠菜


    谢谢!

论坛徽章:
11
技术图书徽章
日期:2014-03-01 14:44:34天蝎座
日期:2014-05-21 22:11:59金牛座
日期:2014-05-30 17:06:14
12 [报告]
发表于 2013-08-19 12:09 |只看该作者
如果是练习正则的用法,那就无所谓了,楼上已经有参考了
如果是做严肃的项目,还是别用正则解析HMTL/XML这种吃力不讨好的事情
  1. Python 2.7.5 (default, May 15 2013, 22:43:36) [MSC v.1500 32 bit (Intel)] on win32
  2. Type "copyright", "credits" or "license()" for more information.
  3. >>> html = '''<div class="content" title="2013-08-14 06:30:12">

  4. 七夕六个单身屌丝逛公园,公园都有砸布娃娃的游戏,架子上有很多娃娃,十块钱六个球,砸下的都是你的。。。老大买了50块钱发给我们一人5个球,我们六个人数123一起砸那个最大的熊,那冲击力,好吧,我们都不敢看老板那铁青的脸色,毕竟今晚商场卖到两百多一只。。。

  5. </div>'''.decode('gbk').encode('utf-8')
  6. >>> import xml.etree.ElementTree as ET
  7. >>> root = ET.fromstring(html)
  8. >>> print root.text


  9. 七夕六个单身屌丝逛公园,公园都有砸布娃娃的游戏,架子上有很多娃娃,十块钱六个球,砸下的都是你的。。。老大买了50块钱发给我们一人5个球,我们六个人数123一起砸那个最大的熊,那冲击力,好吧,我们都不敢看老板那铁青的脸色,毕竟今晚商场卖到两百多一只。。。
复制代码

论坛徽章:
0
13 [报告]
发表于 2013-08-19 17:26 |只看该作者
回复 12# timespace


    不好意思,没看到您的意思,是不要用XML还是要用XML
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP