免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: zhoulifa
打印 上一主题 下一主题

[原创] 用 C 语言编写一个网络蜘蛛来搜索网上出现的电子邮件地址 [复制链接]

论坛徽章:
0
61 [报告]
发表于 2006-09-12 09:24 |只看该作者
学习中!

论坛徽章:
0
62 [报告]
发表于 2006-09-12 10:37 |只看该作者
有没有可以处理Javascript等脚本的网络蜘蛛?

论坛徽章:
0
63 [报告]
发表于 2006-09-12 12:04 |只看该作者
原帖由 mqakgn 于 2006-9-12 10:37 发表
有没有可以处理Javascript等脚本的网络蜘蛛?


这个与“网络蜘蛛”原理没关系,而是要在AnalyzePage函数里自己写个分析代码。就是打开文件分析网页源代码,完全可以自己写一个

论坛徽章:
0
64 [报告]
发表于 2006-09-12 18:27 |只看该作者
原帖由 zliming 于 2006-9-12 08:18 发表
if(src - 1)
while(x)
这样用的没有见过啊.这样子如果这个指针有问题,程序是不是就挂了.

还有这么多的 continue; 是有什么好处啊?
if 自己不是可以对多个条件控制区配吗? if(a || b || c)...不是a满足了就 ...


确实可以而且应该用 if(a || b || c)这样的方式,我这里不是故意要写多几个continue,只不过是我不知道邮件地址的合法字符是哪些,所以看到一类就加一个if(x) continue; 不过这样看起来代码好象还比较好看。

对于点我这里当然是支持的,有这句:

  1. if(*x == '.' || *x == '-' || *x == '_')
复制代码

而且测试上述代码也是可行的:
test@local:/source/example/c$ ./a.out "mail: zhou.lifa@163.com"
邮件地址前面部分为:zhou.lifa

论坛徽章:
0
65 [报告]
发表于 2006-09-13 08:04 |只看该作者
分析email那里为何不用正则表达式?

论坛徽章:
0
66 [报告]
发表于 2006-09-14 11:50 |只看该作者
google的spide也不是这样子的吧,这也太简单点了吧?

论坛徽章:
0
67 [报告]
发表于 2006-09-14 21:02 |只看该作者

强顶一个,厉害,学习,希望有朝一日能做点贡献.

论坛徽章:
0
68 [报告]
发表于 2006-09-15 18:49 |只看该作者
原帖由 goldeagle 于 2006-9-13 08:04 发表
分析email那里为何不用正则表达式?


正则表达式在C语言里如何用呢?有某个专门库吗?

论坛徽章:
0
69 [报告]
发表于 2006-09-15 23:57 |只看该作者
很巧,论坛上有朋友自己写了个正则表达式的库,可以参考下。
http://bbs.chinaunix.net/viewthread.php?tid=810271

论坛徽章:
0
70 [报告]
发表于 2006-09-16 19:20 |只看该作者
原帖由 harly 于 2006-9-15 23:57 发表
很巧,论坛上有朋友自己写了个正则表达式的库,可以参考下。
http://bbs.chinaunix.net/viewthread.php?tid=810271


google里搜索libregexpr还真没有多少
我在Ubuntu下也apt-cache search也找不到类似的库
去下载了上面这个链接的高手写的试了一下,高!
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP