Chinaunix
标题:
正则表达式书写问题
[打印本页]
作者:
hothat007
时间:
2013-08-14 20:01
标题:
正则表达式书写问题
<div class="content" title="2013-08-14 06:30:12">
七夕六个单身屌丝逛公园,公园都有砸布娃娃的游戏,架子上有很多娃娃,十块钱六个球,砸下的都是你的。。。老大买了50块钱发给我们一人5个球,我们六个人数123一起砸那个最大的熊,那冲击力,好吧,我们都不敢看老板那铁青的脸色,毕竟今晚商场卖到两百多一只。。。
</div>
复制代码
想把上面的一段中文提出出来
由于是新手不太会,自己写了一个,不对,希望大家能给予指导
founduser = re.search('<div\s+?class="content"\s+?title="2013-08-14\s+?06:30:12">(?P<targetY>.+?)</div>)', respHtml)
作者:
hothat007
时间:
2013-08-14 20:02
先自己顶一个
作者:
yakczh_cu
时间:
2013-08-14 21:12
print(re.search('<div.*>(.*?)</div>',text,re.S).group(1))
复制代码
作者:
bikong0411
时间:
2013-08-15 08:29
re.search('<div[^>]*>(.*)</div>',re,re.S).group(1)
作者:
hothat007
时间:
2013-08-15 08:55
回复
3#
yakczh_cu
谢谢哦,不过我是想针对div class="content" title="2013-08-14 06:30:12"这个进行搜索
作者:
hothat007
时间:
2013-08-15 08:55
回复
4#
bikong0411
谢谢哦,不过我是想针对div class="content" title="2013-08-14 06:30:12"这个进行搜索
作者:
hothat007
时间:
2013-08-15 09:11
回复
5#
hothat007
也就是要识别出来<div class="content" title="2013-08-14 06:30:12">
作者:
hothat007
时间:
2013-08-19 09:19
这贴沉了吗
作者:
一棵菠菜
时间:
2013-08-19 10:39
print(re.search('<div class="content" title="2013-08-14 06:30:12">(.*?)</div>',text,re.S).group(1))
复制代码
作者:
一棵菠菜
时间:
2013-08-19 10:40
精确匹配下就行了,上面的兄弟都给出了答案,你该自己好好想想
作者:
hothat007
时间:
2013-08-19 11:59
回复
10#
一棵菠菜
谢谢!
作者:
timespace
时间:
2013-08-19 12:09
如果是练习正则的用法,那就无所谓了,楼上已经有参考了
如果是做严肃的项目,还是别用正则解析HMTL/XML这种吃力不讨好的事情
Python 2.7.5 (default, May 15 2013, 22:43:36) [MSC v.1500 32 bit (Intel)] on win32
Type "copyright", "credits" or "license()" for more information.
>>> html = '''<div class="content" title="2013-08-14 06:30:12">
七夕六个单身屌丝逛公园,公园都有砸布娃娃的游戏,架子上有很多娃娃,十块钱六个球,砸下的都是你的。。。老大买了50块钱发给我们一人5个球,我们六个人数123一起砸那个最大的熊,那冲击力,好吧,我们都不敢看老板那铁青的脸色,毕竟今晚商场卖到两百多一只。。。
</div>'''.decode('gbk').encode('utf-8')
>>> import xml.etree.ElementTree as ET
>>> root = ET.fromstring(html)
>>> print root.text
七夕六个单身屌丝逛公园,公园都有砸布娃娃的游戏,架子上有很多娃娃,十块钱六个球,砸下的都是你的。。。老大买了50块钱发给我们一人5个球,我们六个人数123一起砸那个最大的熊,那冲击力,好吧,我们都不敢看老板那铁青的脸色,毕竟今晚商场卖到两百多一只。。。
复制代码
作者:
hothat007
时间:
2013-08-19 17:26
回复
12#
timespace
不好意思,没看到您的意思,是不要用XML还是要用XML
欢迎光临 Chinaunix (http://bbs.chinaunix.net/)
Powered by Discuz! X3.2