论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2011-10-26 09:56 |只看该作者 |倒序浏览

http://www.in.gov.br/imprensa/pe ... acaoInicial=01%2F10
网站每个点进去都是一个pdf，但是我找不到下载的链接，求助如何用python把这些PDF下载下来，谢谢了

文库|博客

baggio1987

白手起家

论坛徽章:: 0

2楼 [报告]

发表于 2011-11-02 14:03 |只看该作者

本帖最后由 baggio1987 于 2011-11-02 14:07 编辑

查看源代码后可以看到，每一个被点击的元素的源代码如下：

<div align="center">
<a href="javascript:void(0);" title="Abrir esta edição jornal em nova janela" onclick="redirecionaSelect('http://www.in.gov.br/imprensa/visualiza/index.jsp?jornal=1&pagina=53&data=10/10/2011');"> Diário Oficial da União - Seção 1</a>
</div>

复制代码

可以看出，点击这个元素，会调用redirecionaSelect函数，后面的参数是新打开页面的网址a

http://www.in.gov.br/imprensa/visualiza/index.jsp?jornal=1&pagina=53&data=10/10/2011

复制代码

真正打开的网址b是

http://www.in.gov.br/imprensa/visualiza/index.jsp?jornal=1&pagina=53&data=10/10/2011

复制代码

其实就是amp;被删除了，我也不知道为什么会有这样的处理。

新网址b打开后，查看源代码，里面有这么一句

<frame name="visualizador" src="http://www.in.gov.br/servlet/INPDFViewer?jornal=1&pagina=53&data=10/10/2011&captchafield=firistAccess" />

复制代码

经过我的试验，pdf的下载网址c就是

http://www.in.gov.br/servlet/INPDFViewer?jornal=1&pagina=53&data=10/10/2011&captchafield=firistAccess

复制代码

然后我用python编了个小程序，帮你下载下来pdf了。

import urllib
if __name__ == "__main__":
url = 'http://www.in.gov.br/servlet/INPDFViewer?jornal=1&pagina=53&data=10/10/2011&captchafield=firistAccess'
proxie={'http':'http://127.0.0.1:8086'}
opener = urllib.URLopener(proxies=proxie)
opener.retrieve(url,'c:\\Users\\baggio\\Desktop\\4.pdf')

复制代码

其实第一个页面的网址a和网址b以及第二个页面的pdf下载地址c之间是有固定关系的，我放在一起你看看，应该用程序可以实现从a到c的转换

http://www.in.gov.br/imprensa/visualiza/index.jsp?jornal=1&pagina=53&data=10/10/2011
http://www.in.gov.br/imprensa/visualiza/index.jsp?jornal=1&pagina=53&data=10/10/2011
http://www.in.gov.br/servlet/INPDFViewer?jornal=1&pagina=53&data=10/10/2011&captchafield=firistAccess

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

solu

丰衣足食

论坛徽章:: 1

3楼 [报告]

发表于 2011-11-02 15:35 |只看该作者

这个分析的不错。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wqjwftcaqr

小富即安

论坛徽章:: 0

4楼 [报告]

发表于 2011-11-07 16:15 |只看该作者

结果是这样，是怎么回事？
>>>
Traceback (most recent call last):
  File "C:\Documents and Settings\Administrator\My Documents\新建文本文档.py", line 11, in <module>
opener.retrieve(url,'4.pdf')
  File "C:\Python26\lib\urllib.py", line 238, in retrieve
fp = self.open(url, data)
  File "C:\Python26\lib\urllib.py", line 206, in open
return getattr(self, name)(url)
  File "C:\Python26\lib\urllib.py", line 345, in open_http
h.endheaders()
  File "C:\Python26\lib\httplib.py", line 892, in endheaders
self._send_output()
  File "C:\Python26\lib\httplib.py", line 764, in _send_output
self.send(msg)
  File "C:\Python26\lib\httplib.py", line 723, in send
self.connect()
  File "C:\Python26\lib\httplib.py", line 704, in connect
self.timeout)
  File "C:\Python26\lib\socket.py", line 514, in create_connection
raise error, msg
IOError: [Errno socket error] [Errno 10061]
>>>

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

baggio1987

白手起家

论坛徽章:: 0

5楼 [报告]

发表于 2011-11-16 09:48 |只看该作者

回复 4# wqjwftcaqr

不清楚，我这边测试是正常的。也许是版本的问题。我用的是python2.7

其实你可以根据我的分析自己写程序。不用一定要复制我的代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

返回列表

Chinaunix › 论坛 › 程序设计 › Python › 用python下载PDF问题

用python下载PDF问题 [复制链接]

浏览过的版块