- 论坛徽章:
- 11
|
如果是练习正则的用法,那就无所谓了,楼上已经有参考了
如果是做严肃的项目,还是别用正则解析HMTL/XML这种吃力不讨好的事情- Python 2.7.5 (default, May 15 2013, 22:43:36) [MSC v.1500 32 bit (Intel)] on win32
- Type "copyright", "credits" or "license()" for more information.
- >>> html = '''<div class="content" title="2013-08-14 06:30:12">
- 七夕六个单身屌丝逛公园,公园都有砸布娃娃的游戏,架子上有很多娃娃,十块钱六个球,砸下的都是你的。。。老大买了50块钱发给我们一人5个球,我们六个人数123一起砸那个最大的熊,那冲击力,好吧,我们都不敢看老板那铁青的脸色,毕竟今晚商场卖到两百多一只。。。
- </div>'''.decode('gbk').encode('utf-8')
- >>> import xml.etree.ElementTree as ET
- >>> root = ET.fromstring(html)
- >>> print root.text
- 七夕六个单身屌丝逛公园,公园都有砸布娃娃的游戏,架子上有很多娃娃,十块钱六个球,砸下的都是你的。。。老大买了50块钱发给我们一人5个球,我们六个人数123一起砸那个最大的熊,那冲击力,好吧,我们都不敢看老板那铁青的脸色,毕竟今晚商场卖到两百多一只。。。
复制代码 |
|