免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1702 | 回复: 0
打印 上一主题 下一主题

利用php DOM函数实现简单的单页信息抓取 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-10-12 20:19 |只看该作者 |倒序浏览
利用php DOM函数实现简单的单页信息抓取


   (在这里尽抓取a标签,功能实现了,但是扩展页链接抓取没有实现,欢迎大家批评指导)
<?php
error_reporting(E_ERROR);
$pages = file_get_contents('http://www.php100.com');
//$pages = htmlspecialchars($pages);
$doc = new DOMDocument();
$new_doc = new DOMDocument('1.0', 'utf-8');
$doc->loadhtml($pages);
$dom = $doc->getElementsByTagName('a');
for ($i=0;$i<$dom->length;$i++){
$node = $new_doc->createElement('a',$dom->item($i)->nodeValue);
$newnode = $new_doc->appendChild($node);
$newnode->setAttribute('href',$dom->item($i)->getAttribute('href'));
$newnode->setAttribute('style','display:block;margin-left:30px;');//echo $dom->item($i)->getAttribute('src').'</br>';
}
echo $new_doc->saveHTML();
?>
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP