免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: liqingfang
打印 上一主题 下一主题

url截取问题 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2011-07-07 18:08 |只看该作者
如果你在写抓包分析的c程序,可以直接剥开http 协议,取Hosts
如果你是在http server模块,直接取Hosts就可以了

论坛徽章:
0
12 [报告]
发表于 2011-07-07 18:25 |只看该作者
本帖最后由 liqingfang 于 2011-07-07 18:35 编辑

回复 11# PKkingSon


    直接剥开http 协议,取Hosts,是个思路,不过它是由一个单独的机子发送过来的字符串,不能采用,还得字符串截取。

    那个我的最初截取,行吗?

   有个类似的是百度的面试题:
   
   故事好像是这样的:
  
   一个文本文件有多行,每行为一个URL。请编写代码,统计出URL中的文件名及出现次数。

  a) 文件名不包括域名、路径和URL参数,例如http://www.rs.com/n.op/q/rs?id=1中的文件名是rs。
  b) 部分URL可能没有文件名,例如http://www.abc.com/,这类统计为“空文件名”。
  c) 出目前不同URL中的相同文件名视为同一文件名,例如http://www.ceshi.com/hi.phpftp://ftp.cdef.com/hi.php为同一文件名

  文件内容示例如下:
  http://www.test.com/abc/de/fg.ph ... test.com/index.html
  http://www.ceshi.com/hi.jsp
  ftp://ftp.ceshi.com/hi.jsp
  http://www.hello.com/cw/hi.jsp?k=8
  http://www.hi.com/jk/l.html?id=1&s=a.html
  http://www.rs.com/n.op/q/rs?id=1
  http://www.abc.com/

论坛徽章:
0
13 [报告]
发表于 2011-07-07 18:33 |只看该作者
回复 1# liqingfang


    对于ip的话,我认为先从/找 . 然后找下一个 .,2个点之间判断为数字,知道找到第四个 符合规则的话,则为符合规则的ip
   
    域名的话 可以找 .com .cn 来个列表,这样准确率高

论坛徽章:
0
14 [报告]
发表于 2011-07-07 19:16 |只看该作者
awk关联数组搞这玩意快!!!

论坛徽章:
0
15 [报告]
发表于 2011-07-07 19:16 |只看该作者
到底是对文件名排序,还是截取域名啊。

论坛徽章:
0
16 [报告]
发表于 2011-07-07 19:21 |只看该作者
本帖最后由 liqingfang 于 2011-07-07 19:22 编辑

回复 15# PKkingSon

截取域名,那个统计文件名只是相似的。

论坛徽章:
0
17 [报告]
发表于 2011-07-07 19:22 |只看该作者
客户端是咋发送的

论坛徽章:
0
18 [报告]
发表于 2011-07-07 19:24 |只看该作者
回复 17# PKkingSon


    不太清楚,不用关心,这个做成守护进程一直运行,其实可以将完整的url写进文件,然后用awk脚本处理比较简单。

论坛徽章:
0
19 [报告]
发表于 2011-07-07 20:49 |只看该作者
本帖最后由 PKkingSon 于 2011-07-07 20:52 编辑

http://212.22.34.5/meili.php

   http://34.89.90.2:40440/kuaile/hao123/haha.php

   http://89.89.0.34

   http://www.baidu.com/shenghuo/lehelehe.php

   http://news.sina.com/country/news.html

不会写程序,如果一次处理一行,可以这么处理:

输入:
跳过http://
一个字符一个字符塞进左边进右边出的“管子”
遇到字母 letter=1
遇到. dot++
遇到:或/或输入结束停止塞入

输出:
如果letter=0
全部从右边弹出输出

如果letter大于0
//news.sina.com => moc.anis.swen(管子里字符的样子)
弹出字符,dot--
dot=1开始输出

论坛徽章:
0
20 [报告]
发表于 2011-07-07 21:14 |只看该作者
用状态机吧
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP