- 论坛徽章:
- 0
|
本帖最后由 响亮的名字 于 2016-03-21 14:59 编辑
gzip -dc log.gz|grep -i 'baiduspider'|awk {print $1}'|sort|uniq >baidu_IP.txt
nslookup <baidu_IP.txt|awk '$0~/baidu/'|awk -F"-" 'BEGIN{OFS="."}{print $2,$3,$4,$5}'|awk -F"." 'BEGIN{OFS="."}{print $1,$2,$3,$4}' >real_baidu_IP.txt
diff -w real_baidu_IP.txt baidu_IP.txt | grep \^\>|tr -d '> ' >bad_baidu_IP.txt
其中第一行是打开压缩日志文件,找出所有包含baiduspider(不区分大小写)的行,然后用awk输出第一个域(假设IP字段在第一个域)到文件baidu_IP.txt
第二行是批量nslookup查询baidu_IP.txt,并找到结果包含baidu的行,通过格式转换成IP的格式,这些IP都是真正的百度蜘蛛IP,输出到文件real_baidu_IP.txt
第三行通过对比上面两个文件,找出伪装的百度蜘蛛IP到文件bad_baidu_IP.txt
剩下的你想怎么办,就看你自己啦。 |
|