免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1897 | 回复: 5
打印 上一主题 下一主题

[文本处理] 如何使用shell批量 host IP? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2016-03-15 17:13 |只看该作者 |倒序浏览
有一个文件夹里面全部是ip地址我需要在大批量的文件IP中找出为百度spider的IP地址。

论坛徽章:
0
2 [报告]
发表于 2016-03-15 17:15 |只看该作者
求助啊~~~~

论坛徽章:
13
双鱼座
日期:2013-10-23 09:30:05数据库技术版块每日发帖之星
日期:2016-04-20 06:20:00程序设计版块每日发帖之星
日期:2016-03-09 06:20:002015亚冠之塔什干火车头
日期:2015-11-02 10:07:452015亚冠之德黑兰石油
日期:2015-08-30 10:07:07数据库技术版块每日发帖之星
日期:2015-08-28 06:20:00数据库技术版块每日发帖之星
日期:2015-08-05 06:20:002015年迎新春徽章
日期:2015-03-04 09:57:09辰龙
日期:2014-12-03 14:45:52酉鸡
日期:2014-07-23 09:46:23亥猪
日期:2014-03-13 08:46:22金牛座
日期:2014-02-11 09:36:21
3 [报告]
发表于 2016-03-18 10:06 |只看该作者
  1. xargs -I {} host {}< urfile|grep baiduspider |awk -vFS='-' -vOFS='.' '{gsub(/\..*$/,"",$6);print $3 OFS $4 OFS $5 OFS $6}'
复制代码

论坛徽章:
0
4 [报告]
发表于 2016-03-18 12:58 |只看该作者
楼上的牛比

论坛徽章:
0
5 [报告]
发表于 2016-03-18 13:04 |只看该作者
这是我模拟的,不知道对不对
[root@centos ~]# cat 123.log
1.2.3.4.in ******** baiduspider-4-3-2-1.crawl.baidu.com
[root@centos ~]# cat 123.log | grep "baiduspider"
1.2.3.4.in ******** baiduspider-4-3-2-1.crawl.baidu.com
[root@centos ~]# cat 123.log | grep "baiduspider" | awk -F "." {print $5}
[root@centos ~]# cat 123.log | grep "baiduspider" | awk -F "." '{print $5}'
in ******** baiduspider-4-3-2-1
[root@centos ~]# cat 123.log | grep "baiduspider" | awk -F "." '{print $5}' | sed 's#^.*r-\(.*\)#\1#'
4-3-2-1
[root@centos ~]# cat 123.log | grep "baiduspider" | awk -F "." '{print $5}' | sed 's#^.*r-\(.*\)#\1#' | tr "-" "."
4.3.2.1

论坛徽章:
0
6 [报告]
发表于 2016-03-21 14:36 |只看该作者
本帖最后由 响亮的名字 于 2016-03-21 14:59 编辑

gzip -dc log.gz|grep -i 'baiduspider'|awk {print $1}'|sort|uniq >baidu_IP.txt
nslookup <baidu_IP.txt|awk '$0~/baidu/'|awk -F"-" 'BEGIN{OFS="."}{print $2,$3,$4,$5}'|awk -F"." 'BEGIN{OFS="."}{print $1,$2,$3,$4}' >real_baidu_IP.txt
diff -w real_baidu_IP.txt baidu_IP.txt | grep \^\>|tr -d '> ' >bad_baidu_IP.txt

其中第一行是打开压缩日志文件,找出所有包含baiduspider(不区分大小写)的行,然后用awk输出第一个域(假设IP字段在第一个域)到文件baidu_IP.txt
第二行是批量nslookup查询baidu_IP.txt,并找到结果包含baidu的行,通过格式转换成IP的格式,这些IP都是真正的百度蜘蛛IP,输出到文件real_baidu_IP.txt
第三行通过对比上面两个文件,找出伪装的百度蜘蛛IP到文件bad_baidu_IP.txt

剩下的你想怎么办,就看你自己啦。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP