免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12
最近访问板块 发新帖
楼主: chinaunix874
打印 上一主题 下一主题

利用python登录wap网站 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2010-06-01 14:45 |只看该作者
很抱歉前面没有看懂您的意思,不过现在我明白了。

您给的正则表达式还是有一些问题,我得想想再怎么才能够正确判断。我用baidu和kaixin都做了测试,有的链接是这样写的:

<a href="/app/mylist.php?verify=38985495_38985495_1275374250_f9cd24cd3bd4ff7fd598bf4c24f55e3f_kx" class="tdno">组件</a>

这样用您给出的正则表达式,就会得到/app/mylist.php?verify=38985495_38985495_1275374250_f9cd24cd3bd4ff7fd598bf4c24f55e3f_kx" class="tdno" 这样的结果,这也是不对的。

用SGMLParser倒是能取到正确的url,可是又匹配不了'组件'

真困难。。

论坛徽章:
0
12 [报告]
发表于 2010-06-01 14:57 |只看该作者
很抱歉前面没有看懂您的意思,不过现在我明白了。

您给的正则表达式还是有一些问题,我得想想再怎么才能 ...
chinaunix874 发表于 2010-06-01 14:45



    你上面给的例子就缺一个‘"’,你自己看着弄呗,反正就那个意思,正则表达式也不一定得到你需要的值,可能还要经过处理下才能得到你需要的结果

比如:
mylist = re.compile('<a href="/app/mylist.php?verify=(.*?)">(.*?)</a>', re.DOTALL).findall(html)

然后你在每项里面都加上/app/mylist.php?verify=也行啊,或者说你得到的结果可能左右有可能会有“"”,你就写个方法处理呗。

比如你写的正则得到"/app/mylist.php?verify=38985495_38985495_1275361701_817fbc84e1c61d4ab36cf91b4719edbf_kx"
  1. def aaa(str):
  2.     if str.startswith('"'):
  3.         str = str[1:]
  4.     if str.endswith('"'):
  5.         str = str[:-1]

  6.     if str.startswith('"') or str.endswith('"'):
  7.         return aaa(str)
  8.     else:
  9.         return str
复制代码
你自己看着处理呗

论坛徽章:
0
13 [报告]
发表于 2010-06-01 14:57 |只看该作者
想到了一个办法,但是太没有通用性了。

既然返回的key中有'"'符号,那么可以这样做:
key = key.split('"')

key1 = key[0]

论坛徽章:
0
14 [报告]
发表于 2010-06-01 15:00 |只看该作者
你上面给的例子就缺一个‘"’,你自己看着弄呗,反正就那个意思,正则表达式也不一定得到你需要的 ...
t6760915 发表于 2010-06-01 14:57




多谢指点,我会再好好考虑的,十分感谢!!
我知道我的问题太弱智,自己也不擅长思考,我会再努力的,谢谢。

论坛徽章:
0
15 [报告]
发表于 2010-06-01 15:02 |只看该作者
想到了一个办法,但是太没有通用性了。

既然返回的key中有'"'符号,那么可以这样做:
key = key.split( ...
chinaunix874 发表于 2010-06-01 14:57



   刚写的aaa是去除前后"符的,中间就算有去除也不合适啊,递归的
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP