免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2873 | 回复: 4
打印 上一主题 下一主题

[文本处理] lynx -dum 批量查询$1页面中是否存在对应$2 [复制链接]

论坛徽章:
2
金牛座
日期:2013-11-15 15:50:59巨蟹座
日期:2013-12-13 11:17:52
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-11-13 10:55 |只看该作者 |倒序浏览
本帖最后由 老狼000 于 2013-11-13 12:54 编辑

lynx -dum 批量查询A.txt中$1 链接的页面中是否存在对应$2的URL

A.txt

http://www.baidu.com/    http://www.a.com/
http://www.163.com.cn/  http://2.c.com/
http://www.360.cn/         http://www.a.com/
.....               


需求想用lynx -dump 一个个查$1中链接是否包含$2 [要对应]。
比如返回结果  >>B.txt
http://www.baidu.com/    http://top.baidu.com/  yes  #http://top.baidu.com/有在http://www.baidu.com/这个页面上
http://www.163.com.cn/  http://2.c.com/  no            #http://2.c.com/没有在http://www.163.com.cn/这个页面上
http://www.360.cn/         http://www.a.com/  no       #http://www.a.com/没有在http://www.360.cn/这个页面上
.....               

【另外谁发个while read line;do..语法使用,这个模糊倒置没能写好这个循环。本人新手,默默 借助论坛达人学习 感谢】

论坛徽章:
7
亥猪
日期:2013-10-10 17:00:29辰龙
日期:2013-10-12 16:23:19卯兔
日期:2013-11-18 17:01:27金牛座
日期:2014-09-09 10:17:052015七夕节徽章
日期:2015-08-21 11:06:172015亚冠之柏太阳神
日期:2015-09-25 13:56:42数据库技术版块每日发帖之星
日期:2016-08-06 06:20:00
2 [报告]
发表于 2013-11-13 11:13 |只看该作者
目测是这样吗?
  1. awk '{split($1,a,".");split($2,b,"."); print index(a[2],b[2])?$0 FS "yes":$0 FS "NO"}'
复制代码

论坛徽章:
2
金牛座
日期:2013-11-15 15:50:59巨蟹座
日期:2013-12-13 11:17:52
3 [报告]
发表于 2013-11-13 12:55 |只看该作者
老兄,你这个是。你再看下我的上面需求,谢谢回复 2# li0924


   

论坛徽章:
39
辰龙
日期:2013-08-21 15:45:192015亚冠之广州富力
日期:2015-05-12 16:34:52亥猪
日期:2015-03-03 17:22:00申猴
日期:2015-03-03 17:21:37未羊
日期:2014-10-10 13:45:41戌狗
日期:2014-06-17 09:53:29巨蟹座
日期:2014-06-12 23:17:17双鱼座
日期:2014-06-10 12:42:44寅虎
日期:2014-06-09 12:52:172015亚冠之卡尔希纳萨夫
日期:2015-05-24 15:24:35黄金圣斗士
日期:2015-12-02 17:25:0815-16赛季CBA联赛之吉林
日期:2017-06-24 16:43:52
4 [报告]
发表于 2013-11-13 13:02 |只看该作者
回复 1# 老狼000


ynx -dump 批量查询A.txt中$1 链接的页面中是否存在对应$2的URL

A.txt

http://www.baidu.com/    http://www.a.com/
http://www.163.com.cn/  http://2.c.com/
http://www.360.cn/         http://www.a.com/
.....               


需求想用lynx -dump 一个个查。
返回结果  >>B.txt
http://www.baidu.com/    http://www.a.com/  yes
http://www.163.com.cn/  http://2.c.com/  no
http://www.360.cn/         http://www.a.com/  no
.....               

目测是这样:
  1. while read  url1  url2
  2. do
  3. if lynx -dump $url1 |grep -q "$url2" ;then
  4.    echo $url1  $url2 yes >>B.txt
  5. else
  6.    echo $url1 $url2 no >>B.txt
  7. fi
  8. done <A.txt
复制代码

论坛徽章:
2
金牛座
日期:2013-11-15 15:50:59巨蟹座
日期:2013-12-13 11:17:52
5 [报告]
发表于 2013-11-13 14:38 |只看该作者
测试有效 谢谢 月飞兄回复 4# 关阴月飞


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP