免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3225 | 回复: 6
打印 上一主题 下一主题

网页抓取PHP [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2010-03-23 02:10 |只看该作者 |倒序浏览
小弟毕设 关于PHP 网页抓取,出入数据库 用户可从数据库搜索想要的东西 有哪位大虾做过这方面请教一下 小弟定重谢。小弟QQ 275478071!~或者留下联系方式 小弟来联系大虾

论坛徽章:
0
2 [报告]
发表于 2010-03-23 09:11 |只看该作者
你在个帖子我在PPC上看过了。这个没什么难处,你去找一个PHP Simple HTML DOM 的东东,文档写的很详细,做起来跟容易。

论坛徽章:
0
3 [报告]
发表于 2010-03-23 16:33 |只看该作者
这年头雷锋少,一对一的更少。

因为看你是毕业设计,所以我说下,别问我要代码。

网页抓取几个要点:
1:排重(一般url)
2:抓取(看curl)
3:高效写(看http://baike.baidu.com/view/1511292.htm?fr=ala0_1),写多个文件最后合并再写入数据库。

抓取部分:
1:编码。如果你是到指定网站,那么自己看下网页编码。如果是通用也就是不指定网页,那就需要研究如何识别编码和转码
2:解析。快的正则,慢得dom。
3:资源释放控制下。


如果只想找代码的,那就去用搜索引擎找吧。

论坛徽章:
0
4 [报告]
发表于 2010-03-23 18:20 |只看该作者
没兴趣

论坛徽章:
0
5 [报告]
发表于 2010-03-23 19:18 |只看该作者
一个file_get_contents
一个preg_match
两个程序足矣。

论坛徽章:
0
6 [报告]
发表于 2010-04-08 12:11 |只看该作者
如果不限定使用PHP的话,可以考虑采用图形化界面的MetaSeeker,免编程,AJAX内容抓取能力很强,抓取到的内容转换成结构化数据,适合做数据挖掘、情报分析、垂直搜索或者集成到自己的网站上。财经和数据分析专业学生和研究人员使用得很多。

论坛徽章:
0
7 [报告]
发表于 2010-04-15 12:56 |只看该作者
一个file_get_contents
一个preg_match
两个程序足矣。
wildlily980 发表于 2010-03-23 19:18



       顶这个
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP