论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2010-05-30 10:44 |只看该作者 |倒序浏览

这个网址，进去后就点第一个块版‘法律’
这是个post的网页，请各位高手，教我一下，怎么样翻回第二页的信息？
http://vip.chinalawinfo.com/Newlaw2002/chl/index.asp

下面是我前段时间网上帮助我的朋友给我的代码，不知道怎么样应用于这个网址。

#coding=utf-8
import urllib
import urllib2
import httplib
import cookielib
class loginPageGeter:
httpcookie = ''
#构造函数
def __init__(self):
cookie = cookielib.CookieJar()
self.httpcookie = urllib2.HTTPCookieProcessor(cookie)
#登录函数
def login(self, url, params):
try:
params = urllib.urlencode(params)
req = urllib2.Request(url, params)
opener = urllib2.build_opener(self.httpcookie)
fp = opener.open(req)
return fp.read()
except:
return False
#post数据
def post(self, url, params):
try:
params = urllib.urlencode(params)
req = urllib2.Request(url, params)
opener = urllib2.build_opener(self.httpcookie)
fp = opener.open(req)
return fp.read()
except:
return False
if __name__=='__main__':
loginObj = loginPageGeter()
#登录
print '正在登录...'.decode('utf-8')
url = 'http://xuxb.v2.local/member/login.php'
params = {'username':'test01', 'password':'test', 'act':'login'}
loginObj.login(url, params)
#给用户发10条消息
for i in range(1, 11):
print ('%s\t正在发送消息...' % i).decode('utf-8')
url = 'http://xuxb.v2.local/member/send_message.php'
params = {'friendId':'1790251', 'message':'机器自动发送', 'act':'add'}
loginObj.post(url, params)

复制代码

文库|博客

t6760915

小富即安

论坛徽章:: 0

2楼 [报告]

发表于 2010-05-30 13:59 |只看该作者

和get一样,post也会得到响应内容的

params = urllib.urlencode(params)
req = urllib2.Request(url, params)
opener = urllib2.build_opener(self.httpcookie)
fp = opener.open(req)
print fp.read()

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wqjwftcaqr

小富即安

论坛徽章:: 0

3楼 [报告]

发表于 2010-05-31 15:53 |只看该作者

不懂啊，哪位能帮我看看我的实际例子，教我下参数怎么填进去？

另外再帮我推荐一本对采集有帮助的书，我也不知道看什么书好。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

t6760915

小富即安

论坛徽章:: 0

4楼 [报告]

发表于 2010-05-31 16:41 |只看该作者

本帖最后由 t6760915 于 2010-05-31 16:44 编辑

#coding=utf-8
import urllib
import urllib2
import httplib
import cookielib
class poster:
httpcookie = ''
#构造函数
def __init__(self):
cookie = cookielib.CookieJar()
self.httpcookie = urllib2.HTTPCookieProcessor(cookie)
#post数据
def doPost(self, url, params):
try:
params = urllib.urlencode(params)
req = urllib2.Request(url, params)
opener = urllib2.build_opener(self.httpcookie)
fp = opener.open(req)
return fp.read()
except:
return False
#析构函数
def __del__(self):
self.httpcookie = ''
if __name__=='__main__':
pObj = poster()
url = 'http://vip.chinalawinfo.com/Newlaw2002/chl/result.asp'
params = {'PreSearchWhere':'效力级别=%#XA01%', 'ResultID':'1', 'CurrentPage':'5', 'AllPageCount':'30', 'Page':'5', 'PageSize':'40', 'orderby':'2', 'jd':'', 'RdIsSHowMess':'', 'RdIsSHow':''}
newparams = {}
for key,val in params.items():
key = key.decode('utf-8', 'ignore').encode('gbk', 'ignore')
val = val.decode('utf-8', 'ignore').encode('gbk', 'ignore')
newparams[key] = val
html = pObj.doPost(url, newparams)
fp = open('a.html', 'w')
fp.write(html)
fp.close()

复制代码

我就晕了,那代码是我给你的.

我稍微改了下抓取的页面截图是这样的...

他的页次是page,我抓的第5页所以就写的5,你可以循环抓,这个变量不断变化就可以了

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

luffy.deng

腰缠万贯

论坛徽章:: 0

5楼 [报告]

发表于 2010-05-31 17:08 |只看该作者

可不可以回去看看http协议再出来问问题？什么都不懂整天问些工作上的问题，你给不给钱啊？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wqjwftcaqr

小富即安

论坛徽章:: 0

6楼 [报告]

发表于 2010-05-31 17:15 |只看该作者

可不可以回去看看http协议再出来问问题？什么都不懂整天问些工作上的问题，你给不给钱啊？
luffy.deng 发表于 2010-05-31 17:08

我水平有限，恩，是想看看http协议不知道有没有这方面的好书，是工作上的事情，都比较急，一时没到这水平。
钱嘛，可以给，小问题一百块一个，大问题付不起。

最后我不好意思各位，麻烦了，希望大家抱着教是最好的学的心态或者助人为乐，来帮帮我，其实我愿意学，并不怎么懒，一时没方法。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wqjwftcaqr

小富即安

论坛徽章:: 0

7楼 [报告]

发表于 2010-05-31 17:15 |只看该作者

本帖最后由 wqjwftcaqr 于 2010-05-31 17:32 编辑

我就晕了,那代码是我给你的.

我稍微改了下抓取的页面截图是这样的...

他的页次是page,我抓的第5页所以 ...
t6760915 发表于 2010-05-31 16:41

万分感谢，请为我的工作需要推荐一本书吧？（采集各种网站信息）

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

t6760915

小富即安

论坛徽章:: 0

8楼 [报告]

发表于 2010-05-31 21:23 |只看该作者

熟悉urllib,os,sys这些模块就可以了,好象还真没有这方面的书

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

luffy.deng

腰缠万贯

论坛徽章:: 0

9楼 [报告]

发表于 2010-05-31 21:39 |只看该作者

从你第一次问这样的问题就建议你看一下http协议，找个工具看下header。网上http协议资料一大把，firebug这样的工具更是一大堆。如果你肯拿出一个周的时间研究一下http协议，不可能到现在还搞不清楚什么是post提交。如果你曾经试图研究一下别人给你的代码，对与下面这个post数据怎么也得猜个八九不离十吧？
PreSearchWhere=%D0%A7%C1%A6%BC%B6%B1%F0%3D%25%23XC02%25&ResultID=1&CurrentPage=1&AllPageCount=144&Page=3&PageSize=40&orderby=2&jd=&RdIsSHowMess=&RdIsSHow=
说实话这样的问题跟python就没什么关系，只是python有个urllib2库用着方便而已。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

jjj137

家境小康

论坛徽章:: 0

10楼 [报告]

发表于 2010-05-31 23:57 |只看该作者

其实如果不涉及cookie的话，post直接用urllib就能搞定了吧……

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 3 / 3 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › Python › post的网页，想return第二页的信息怎么弄？

post的网页，想return第二页的信息怎么弄？ [复制链接]