免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2867 | 回复: 6

关于用一个列表接受另一个列表的遍历问题 [复制链接]

论坛徽章:
0
发表于 2014-08-07 15:23 |显示全部楼层
本人菜鸟级,在用python写一个下载图片的的小爬虫,当中遇到一个小麻烦,就是某论坛里有些图片源码里面没有http的,file="data/a/b/c/0000000001c5gb8evgpkyo3g8a.jpg",
def getImg(html):
    reg = r'file="(.*?\.jpg)"'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
我得到这样一个imglist的列表但是缺少域名http://www.abc.com/
用for循环加上去
headurl = 'http://www.abc.com/'
    for url in imglist:
        fullurl = [os.path.join(headurl,url)]
        print fullurl
我是用os模块将headurl加到imglist列表里的,现在的问题是我得到的是每一个图片是一个列表,怎样写才能把fullurl这个编程一个大的列表,而不是每个图片生成一个列表?

或者高手们有什么其它更好的方法?谢谢大家!



论坛徽章:
4
白羊座
日期:2013-11-05 10:26:09冥斗士
日期:2015-11-17 14:19:55白银圣斗士
日期:2015-11-17 15:13:0815-16赛季CBA联赛之新疆
日期:2016-04-01 09:10:58
发表于 2014-08-07 16:10 |显示全部楼层
回复 1# zwfnet
当得到imglist列表后,可以这样(假定所有的数据都是需要追加url的开头这部分的):
  1. headurl = 'http://www.abc.com/'
  2. newList = [headurl + item for item in imglist]
复制代码
这时,newList应当就是你需要的新列表了。
记得:这个假定是所有的URL都需要加url头的。

论坛徽章:
0
发表于 2014-08-07 16:49 |显示全部楼层
回复 2# icymirror


是的,这方法可以实现,但是为啥我print出来的效果是,出现生成N次的列表哦,意思是我的imglist有多少个元素,就会出现多少次newlist。能否改进?

非常感谢你的回复,谢谢!


   

论坛徽章:
4
白羊座
日期:2013-11-05 10:26:09冥斗士
日期:2015-11-17 14:19:55白银圣斗士
日期:2015-11-17 15:13:0815-16赛季CBA联赛之新疆
日期:2016-04-01 09:10:58
发表于 2014-08-07 17:12 |显示全部楼层
回复 3# zwfnet
主要是因为你在for循环里面把fulllist做成了一个list,然后马上打印它。
你可以试着先把[]去除,然后再执行下你的循环。

论坛徽章:
0
发表于 2014-08-08 11:46 |显示全部楼层
回复 4# icymirror

明白了,我去掉上面的for循环不去循环那个列表就对了,因为之前也是一个列表,所以把那个列表遍历了一遍,所以才会重复出现了这么多次数。

不过item for item in imglist 这个方法是在很棒,我就没想到,还是非常感谢你,受教了!   

论坛徽章:
11
2015年迎新春徽章
日期:2015-03-04 09:55:282017金鸡报晓
日期:2017-02-08 10:39:4215-16赛季CBA联赛之辽宁
日期:2016-12-15 10:24:1715-16赛季CBA联赛之佛山
日期:2016-11-30 09:04:2015-16赛季CBA联赛之江苏
日期:2016-04-29 15:56:1215-16赛季CBA联赛之同曦
日期:2016-04-12 13:21:182016猴年福章徽章
日期:2016-02-18 15:30:3415-16赛季CBA联赛之山东
日期:2016-02-16 11:37:52每日论坛发贴之星
日期:2016-02-07 06:20:00程序设计版块每日发帖之星
日期:2016-02-07 06:20:0015-16赛季CBA联赛之新疆
日期:2018-01-09 16:25:37
发表于 2014-08-18 14:41 |显示全部楼层
再加个条件
newList = [headurl + item for item in imglist if not item.startswith(headurl )]

论坛徽章:
0
发表于 2014-09-17 10:40 |显示全部楼层
newList = [''.join([headurl, item]) for item in imglist]
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP