免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: zhoulifa
打印 上一主题 下一主题

[原创] 用 C 语言编写一个网络蜘蛛来搜索网上出现的电子邮件地址 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2006-09-02 15:56 |只看该作者
i use python+curl.

论坛徽章:
0
12 [报告]
发表于 2006-09-04 09:27 |只看该作者
up

论坛徽章:
0
13 [报告]
发表于 2006-09-04 10:59 |只看该作者
mailaddrsearch.c:303: 警告:传递参数 1 (属于 ‘GetHost’)时在不兼容的指针类型间转换
是不是int main(int argc, char ** argv)应该改为int main(int argc, char * argv), 这样不会导致GetHost函数中char * src参数发生错误?

[ 本帖最后由 nvbo 于 2006-9-4 11:13 编辑 ]

论坛徽章:
0
14 [报告]
发表于 2006-09-04 11:17 |只看该作者
原帖由 nvbo 于 2006-9-4 10:59 发表
mailaddrsearch.c:303: 警告:传递参数 1 (属于 ‘GetHost’)时在不兼容的指针类型间转换
是不是int main(int argc, char ** argv)应该改为int main(int argc, char * argv), 这样不会导致GetHost函数中char * s ...

这样编译可以通过,但运行有错误.还需要仔细找出错误

论坛徽章:
0
15 [报告]
发表于 2006-09-04 12:47 |只看该作者
原帖由 nvbo 于 2006-9-4 10:59 发表
mailaddrsearch.c:303: 警告:传递参数 1 (属于 ‘GetHost’)时在不兼容的指针类型间转换
是不是int main(int argc, char ** argv)应该改为int main(int argc, char * argv), 这样不会导致GetHost函数中char * s ...


这个警告不能用你说的这种方法去改。当然,这个警告不改是绝对正确的。
你可以把这句:
GetHost(argv, &WebHost, &PageAddress, &WebPort, &WebDir);
改成:
GetHost(argv + i, &WebHost, &PageAddress, &WebPort, &WebDir);
试试。看还有没有警告。

但你如果把int main里的char ** argv改成char * argv就大错特错了,这是C语言入门里的。因为argv是保存着程序参数,显然是多个二维字符串数组,如果你改成char * argv就只能保存一个参数了。

论坛徽章:
0
16 [报告]
发表于 2006-09-04 12:50 |只看该作者
原帖由 flw 于 2006-9-2 15:09 发表
像这一类程序,耗时的操作主要在于网络通讯上,
处理本身是不占用什么时间的,
反过来灵活性和扩展性就显得至关重要,
用 C 来做爬虫,的确罕见!

BTW:可以请蜘蛛给大家介绍一下。


我这个程序只是用来展示原理,所以在各位所说的几大“性”是没什么考虑
如果下一步想做完善它,我肯定会考虑加上I/O多路复用及面向对象的概念
还希望各位多提建议!

论坛徽章:
0
17 [报告]
发表于 2006-09-04 15:57 |只看该作者
发哥的文章肯定是要顶一下的。

论坛徽章:
0
18 [报告]
发表于 2006-09-05 08:48 |只看该作者
多谢 fzy !多谢各位关注!
我一定努力在业余做更多尝试,争取不断进步!

如果感兴趣,你一定要看一下 如何在关机前保存数据 http://bbs.chinaunix.net/viewthr ... &extra=page%3D1

这对于在Linux下做应用服务程序的朋友来说应该是有帮助的

论坛徽章:
0
19 [报告]
发表于 2006-09-06 17:03 |只看该作者
[root@root test]$ ./test http://news.tom.com/2006-09-06/000N/07658766.html
GetHost error from '楮

论坛徽章:
0
20 [报告]
发表于 2006-09-06 18:48 |只看该作者
[quote]原帖由 GNM 于 2006-9-6 17:03 发表
[root@root test]$ ./test http://news.tom.com/2006-09-06/000N/07658766.html
GetHost error from '楮
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP