免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2543 | 回复: 3
打印 上一主题 下一主题

求助:批量下载 PYTHON [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2016-05-18 13:03 |只看该作者 |倒序浏览
各位大神。本人非编程出生,但老板要求下载一个网址内的全部PDF文件,作为我们进一步研究的基础。但该网站各个PDF文件安置于很深的页面,如果每次点击下载将耗费大量的时间。本人网上学习了一点儿关于正则表达式的,发现python可以实现。现请教大神们给一个程序。

该网站地址为  legislation.gov.hk/blis_ind.nsf/WebView?OpenAgent&vwpg=CurAllChinDoc*1*100。 经查看源代码,发现所有的PDF都储存在形如这样的路径中: legislation.gov.hk/blis_pdf.nsf/6799165D2FEE3FA94825755E0033E532/4322B37168998B64482575EF00283409/$FILE/CAP_1181_c_b5.pdf  
红色部分应该是无规律的。


不甚感激。

论坛徽章:
0
2 [报告]
发表于 2016-05-18 14:10 |只看该作者
up up up
求大神出手相救

论坛徽章:
0
3 [报告]
发表于 2016-05-20 22:43 |只看该作者
回复 1# lfyxqywb123

你的这两个网址都上不去,是否需要帐户/密码?请详细些。
   

论坛徽章:
9
操作系统版块每日发帖之星
日期:2016-01-08 06:20:00操作系统版块每日发帖之星
日期:2016-01-28 06:20:0015-16赛季CBA联赛之四川
日期:2016-05-17 17:50:32操作系统版块每日发帖之星
日期:2016-08-01 06:20:0015-16赛季CBA联赛之广东
日期:2016-08-01 16:01:57操作系统版块每日发帖之星
日期:2016-08-04 06:20:00IT运维版块每日发帖之星
日期:2016-08-07 06:20:00操作系统版块每日发帖之星
日期:2016-08-07 06:20:0015-16赛季CBA联赛之福建
日期:2017-03-07 17:14:27
4 [报告]
发表于 2016-05-21 21:48 |只看该作者
legislation.gov.hk/blis_pdf.nsf/6799165D2FEE3FA94825755E0033E532/4322B37168998B64482575EF00283409/$FILE/CAP_1181_c_b5.pdf

如果是这样的url 不用python也可以

用curl把源码下下来然后grep出来  grep -o "legislation.gov.hk/blis_pdf.nsf/.\{1,100\}\.pdf" 筛选出所有的url 然后wget.
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP