免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 11783 | 回复: 11
打印 上一主题 下一主题

[数值计算] 如何加快shell批量获取url状态码的速度? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-11-07 11:51 |只看该作者 |倒序浏览
写了个shell脚本来查询一批url的状态码,之后按照指定格式生成txt,能正常使用,但shell获取url状态码速度很慢,上万条url得等好长时间。如何能加快shell获取url状态码的速度?初学者,水平较菜,请高人指点下^_^

脚本如下:
  1. for i in `cat url.txt`
  2. do
  3. STATUS_CODE=`curl -o /dev/null -s -w %{http_code} $i`                                    
  4. echo -e "$i:\t$STATUS_CODE" >>状态码.txt                                                
  5. done
复制代码

论坛徽章:
60
20周年集字徽章-20	
日期:2020-10-28 14:04:3015-16赛季CBA联赛之北京
日期:2016-07-06 15:42:0715-16赛季CBA联赛之同曦
日期:2016-06-12 10:38:0915-16赛季CBA联赛之佛山
日期:2016-05-27 11:54:56黄金圣斗士
日期:2015-12-02 11:44:35白银圣斗士
日期:2015-11-25 14:32:43白银圣斗士
日期:2015-11-23 12:53:352015亚冠之布里斯班狮吼
日期:2015-10-21 16:55:482015亚冠之首尔
日期:2015-09-01 16:46:052015亚冠之德黑兰石油
日期:2015-08-31 11:39:192015亚冠之萨济拖拉机
日期:2015-08-28 21:06:5315-16赛季CBA联赛之广东
日期:2016-07-12 14:58:53
2 [报告]
发表于 2013-11-07 12:33 |只看该作者

可以搞个并发! 不过感觉如果对同一个url请求太快也是个问题。
  1. #!/bin/bash

  2. Thread=50
  3. CurFileName="url.txt"
  4. FifoFile="$.fifo"
  5. mkfifo $FifoFile
  6. exec 6<>$FifoFile      
  7. rm $FifoFile
  8. for ((i=0;i<=$Thread;i++));do echo;done >&6
  9. exec 5<$CurFileName
  10. trap 'kill -9 0;exit 1' 1 2 3 15

  11. while read -u5 line
  12. do
  13.         read -u6
  14.         {
  15.                 STATUS_CODE=$(curl -o /dev/null -s -w %{http_code} "$line")
  16.                 echo -e "$line\t$STATUS_CODE" |tee -a code.txt   
  17.                 echo >&6
  18.         } &
  19. done
  20. wait  
复制代码

论坛徽章:
14
15-16赛季CBA联赛之辽宁
日期:2019-06-16 15:47:3515-16赛季CBA联赛之广夏
日期:2016-08-13 21:24:352015亚冠之武里南联
日期:2015-07-07 17:37:372015亚冠之萨济拖拉机
日期:2015-07-06 17:07:482015亚冠之全北现代
日期:2015-06-04 13:54:272015亚冠之城南
日期:2015-05-21 15:43:212015年亚洲杯之伊朗
日期:2015-04-25 18:20:362015年亚洲杯之伊朗
日期:2015-04-20 16:06:052015年亚洲杯之科威特
日期:2015-03-07 12:51:26丑牛
日期:2014-12-30 10:26:38申猴
日期:2014-09-28 22:40:18金牛座
日期:2014-09-13 21:12:22
3 [报告]
发表于 2013-11-07 12:50 |只看该作者
并发大师啊~ 请用大蛇写一下并发。

论坛徽章:
1
巳蛇
日期:2013-10-28 15:55:33
4 [报告]
发表于 2013-11-07 13:35 |只看该作者
说下思路。
  1. wget --spider -nv -i url.txt -o out.log # -i处理url列表,免得重复fork子进程、ip绑定和dns解析。--spider 只HEAD不GET。
  2. 自己sed/awk处理out.log吧。
复制代码
其他情况你自己试。
  1. froms@1312ax:/dev/shm$ wget --spider localhost/d -nv
  2. http://localhost/d:
  3. Remote file does not exist -- broken link!!!
  4. froms@1312ax:/dev/shm$ wget --spider localhost/api -nv
  5. 2013-11-07 13:34:14 URL: http://localhost/api/ 200 OK
复制代码

论坛徽章:
0
5 [报告]
发表于 2013-11-07 13:46 |只看该作者
大神,刚测试下跑出来的是这种情况~~


回复 2# reyleon


   

论坛徽章:
0
6 [报告]
发表于 2013-11-07 14:22 |只看该作者
回复 1# GoGo闯


    用curl -I选项就行了,只要http响应头
  1. [root@centOS ~]# curl -I http://nb.eehu.com
  2. HTTP/1.1 200 OK
  3. Server: nginx
  4. Date: Thu, 07 Nov 2013 06:19:11 GMT
  5. Content-Type: text/html; charset=utf-8
  6. Content-Length: 121762
  7. Connection: keep-alive
  8. Vary: Accept-Encoding
  9. Cache-Control: private
  10. X-AspNetMvc-Version: 3.0
  11. X-AspNet-Version: 4.0.30319
  12. X-Powered-By: ASP.NET
复制代码

论坛徽章:
39
辰龙
日期:2013-08-21 15:45:192015亚冠之广州富力
日期:2015-05-12 16:34:52亥猪
日期:2015-03-03 17:22:00申猴
日期:2015-03-03 17:21:37未羊
日期:2014-10-10 13:45:41戌狗
日期:2014-06-17 09:53:29巨蟹座
日期:2014-06-12 23:17:17双鱼座
日期:2014-06-10 12:42:44寅虎
日期:2014-06-09 12:52:172015亚冠之卡尔希纳萨夫
日期:2015-05-24 15:24:35黄金圣斗士
日期:2015-12-02 17:25:0815-16赛季CBA联赛之吉林
日期:2017-06-24 16:43:52
7 [报告]
发表于 2013-11-07 14:28 |只看该作者
回复 5# GoGo闯


    把你的代码贴一下

论坛徽章:
1
巳蛇
日期:2013-10-28 15:55:33
8 [报告]
发表于 2013-11-07 14:36 |只看该作者
  1. sh.souxuexiao.com/school-153153
  2. sh.souxuexiao.com/kc-366979
  3. sh.souxuexiao.com/kc-367143
  4. sh.souxuexiao.com/kc-366993
复制代码
我找对几个链接?

论坛徽章:
60
20周年集字徽章-20	
日期:2020-10-28 14:04:3015-16赛季CBA联赛之北京
日期:2016-07-06 15:42:0715-16赛季CBA联赛之同曦
日期:2016-06-12 10:38:0915-16赛季CBA联赛之佛山
日期:2016-05-27 11:54:56黄金圣斗士
日期:2015-12-02 11:44:35白银圣斗士
日期:2015-11-25 14:32:43白银圣斗士
日期:2015-11-23 12:53:352015亚冠之布里斯班狮吼
日期:2015-10-21 16:55:482015亚冠之首尔
日期:2015-09-01 16:46:052015亚冠之德黑兰石油
日期:2015-08-31 11:39:192015亚冠之萨济拖拉机
日期:2015-08-28 21:06:5315-16赛季CBA联赛之广东
日期:2016-07-12 14:58:53
9 [报告]
发表于 2013-11-07 14:43 |只看该作者
回复 5# GoGo闯


    我测试没问题,另外你可以根据6楼的方法,再加上一个 -I 参数,只取头部,在原来的基础上又会快一些

论坛徽章:
60
20周年集字徽章-20	
日期:2020-10-28 14:04:3015-16赛季CBA联赛之北京
日期:2016-07-06 15:42:0715-16赛季CBA联赛之同曦
日期:2016-06-12 10:38:0915-16赛季CBA联赛之佛山
日期:2016-05-27 11:54:56黄金圣斗士
日期:2015-12-02 11:44:35白银圣斗士
日期:2015-11-25 14:32:43白银圣斗士
日期:2015-11-23 12:53:352015亚冠之布里斯班狮吼
日期:2015-10-21 16:55:482015亚冠之首尔
日期:2015-09-01 16:46:052015亚冠之德黑兰石油
日期:2015-08-31 11:39:192015亚冠之萨济拖拉机
日期:2015-08-28 21:06:5315-16赛季CBA联赛之广东
日期:2016-07-12 14:58:53
10 [报告]
发表于 2013-11-07 14:51 |只看该作者
本帖最后由 reyleon 于 2013-11-07 14:52 编辑

回复 5# GoGo闯
  1. [root@centos6-1 ~]#
  2. [root@centos6-1 ~]# wc -l url.txt
  3. 15000 url.txt
  4. [root@centos6-1 ~]#
  5. [root@centos6-1 ~]# head url.txt
  6. www.ifeng.com
  7. www.163.com
  8. www.ifeng.com
  9. www.hao123.com
  10. www.youku.com
  11. www.ifeng.com
  12. www.hao123.com
  13. www.hao123.com
  14. www.youku.com
  15. www.baidu.com
  16. [root@centos6-1 ~]#
  17. [root@centos6-1 ~]# cat test.sh
  18. #!/bin/bash

  19. Thread=100
  20. CurFileName="url.txt"
  21. #CurFileName="ip.txt"
  22. FifoFile="$.fifo"
  23. mkfifo $FifoFile
  24. exec 6<>$FifoFile      
  25. rm $FifoFile
  26. for ((i=0;i<=$Thread;i++));do echo;done >&6
  27. exec 5<$CurFileName
  28. trap 'kill -9 0;exit 1' 1 2 3 15

  29. while read -u5 line
  30. do
  31.         read -u6
  32.         {
  33.                 STATUS_CODE=$(curl -I -o /dev/null -s -w %{http_code} "$line")
  34.                 echo -e "$line\t$STATUS_CODE" |tee -a code.txt   
  35.                 #ssh $line "ls /tmp/ &>/dev/null"
  36.                 #echo ok
  37.                 echo >&6
  38.         } &
  39. done
  40. wait  
  41. [root@centos6-1 ~]# time sh test.sh &>/dev/null

  42. real    3m42.393s
  43. user    0m36.823s
  44. sys     1m41.365s
  45. [root@centos6-1 ~]#
复制代码
15000条记录,花了 3 分多钟。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP