免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 15961 | 回复: 6
打印 上一主题 下一主题

如何用re.search()抓取字符串 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-07-18 23:03 |只看该作者 |倒序浏览
html源代码如下:
  1. <form method="post" name="loginForm" id="loginForm" action="/accounts/login_view/">
  2.     <fieldset class="fieldset" id="filedset">
  3.       <legend>用户登录</legend>
  4.       <label for="username">用户名</label>
  5.       <input type="text"  value="" name="username" id="username" maxlength="20"/>  
  6.       <label for="password" >密码</label>
  7.       <input  type="password" value="" id="password" name="password" onKeyPress="keypress(event)" maxlength="32"/>
  8.       <input class="submit" type="submit"  value="登 录" onFocus="this.blur()"/>
  9.       <input type='hidden' name='csrfmiddlewaretoken' value="R9IOKa7lcUxBlQnqu1v8XBi8o0bMiuT8">
  10.     </fieldset>
  11.   </form>
复制代码
想用re.search()抓取R9IOKa7lcUxBlQnqu1v8XBi8o0bMiuT8字符串,就是csrfmiddlewaretoken的value值。
自己用正则抓不到这个字符串,谢谢!

论坛徽章:
0
2 [报告]
发表于 2014-07-19 08:46 |只看该作者
本帖最后由 whitelotus19 于 2014-07-19 10:08 编辑
  1. import re
  2. text='''
  3. <form method="post" name="loginForm" id="loginForm" action="/accounts/login_view/">
  4.     <fieldset class="fieldset" id="filedset">
  5.       <legend>用户登录</legend>
  6.       <label for="username">用户名</label>
  7.       <input type="text"  value="" name="username" id="username" maxlength="20"/>  
  8.       <label for="password" >密码</label>
  9.       <input  type="password" value="" id="password" name="password" onKeyPress="keypress(event)" maxlength="32"/>
  10.       <input class="submit" type="submit"  value="登 录" onFocus="this.blur()"/>
  11.       <input type='hidden' name='csrfmiddlewaretoken' value="R9IOKa7lcUxBlQnqu1v8XBi8o0bMiuT8">
  12.     </fieldset>
  13.   </form>   
  14.     '''
  15. pat=r'''name='csrfmiddlewaretoken'\s+value="([^>]+)">'''
  16. for m in re.findall(pat,text):
  17.     print m
复制代码

论坛徽章:
0
3 [报告]
发表于 2014-07-21 20:34 |只看该作者
回复 2# whitelotus19

谢谢了啊,自己虚拟机跑了下,发现re.findall()的返回值是一个数组,问题搞定,token值可以顺利拿到了!

   

论坛徽章:
33
荣誉会员
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT运维版块每日发帖之星
日期:2016-04-17 06:23:27操作系统版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-24 06:20:0015-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59
4 [报告]
发表于 2014-07-22 09:19 |只看该作者
re.search().group(1) 就是你要找的值.

论坛徽章:
0
5 [报告]
发表于 2014-07-22 11:24 |只看该作者
q1208c 发表于 2014-07-22 09:19
re.search().group(1) 就是你要找的值.


是的啊,re.search.group(1)获取返回值。re.findall的返回值是一个数组。最后才弄明白,我这边用search和findall其实差不多,反正这个字符串只出现了一次,关键还是二楼帮我写的那个正则!

论坛徽章:
33
荣誉会员
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT运维版块每日发帖之星
日期:2016-04-17 06:23:27操作系统版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-24 06:20:0015-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59
6 [报告]
发表于 2014-07-22 12:33 |只看该作者
回复 5# v0yager


原来是你把正则写错了呀.      

论坛徽章:
0
7 [报告]
发表于 2014-07-22 13:05 |只看该作者
回复 6# q1208c

是啊~最近刚开始才自学python,正则也需要恶补一下

   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP