免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 4877 | 回复: 8

解析HTML格式的字符串问题,帮忙 [复制链接]

论坛徽章:
0
发表于 2009-09-04 21:51 |显示全部楼层
10可用积分
网页的HTML字符串,我要解析出里面的IMG和其他文件链接,这些比较好做,问题是如果这个html文件的文本是一个HTML内容,而这个HTML文本也包含IMG等文件链接,这些是肯定不需要的,请问怎么区别HTML代码和HTML内容里的HTML代码?
如果我说的不够详细,请看图片:
QQ截图未命名.png
就是说怎么识别正文里面的IMG链接和HTML本身的链接的,先谢谢大家来了??

论坛徽章:
0
发表于 2009-09-04 22:00 |显示全部楼层
。。。。。心里有点堵

论坛徽章:
0
发表于 2009-09-04 22:15 |显示全部楼层
动态HTML?

论坛徽章:
0
发表于 2009-09-04 22:16 |显示全部楼层
就是这个HTML正文里面是一段HTML代码,也包含了一些我要解析的信息,我的意思,我在解析时,怎么区别出是正文的数据里面的呢??

论坛徽章:
0
发表于 2009-09-04 22:19 |显示全部楼层

回复 #3 ziggler 的帖子

也不是动态,比如说:
<img src="http://bbs.chinaunix.net/images/aoyun.gif" border=0 height=16><FONT color=red>奥运快报:&nbsp;<br>奥运热点:</font></a>&nbsp;</td><td width=*>
<script src="http://www.chinaunix.net/aoyun2008_2.php" type="text/javascript"></script>
</td></tr>
</table>
<br>

上面这段就是文本数据,但是在解析这个,就是我们现在论坛这个页面时,怎么区别出上面这段是文本数据,而不是页面里的html 代码,,我不知道怎么表达了,,让大家理解困难了

论坛徽章:
0
发表于 2009-09-04 22:19 |显示全部楼层
看看xml是怎么解析的。。

论坛徽章:
0
发表于 2009-09-04 22:22 |显示全部楼层
<img src="http://bbs.chinaunix.net/images/aoyun.gif" border=0 height=16><FONT color=red>奥运快报: <br>奥运热点:</font></a> </td><td width=*>
<script src="http://www.chinaunix.net/aoyun2008_2.php" type="text/javascript"></script>
</td></tr>
</table>
<br>

论坛徽章:
0
发表于 2009-09-04 22:26 |显示全部楼层

回复 #4 chary8088 的帖子

论坛徽章:
0
发表于 2009-09-05 09:42 |显示全部楼层

回复 #1 chary8088 的帖子

<>标记是不能出现在文本里的,只要看到<>,浏览器就会去解析. 文本用&gt; &lt;分别代表这两个字符。
你需要区分的是,怎么区别注释里的<img 标签和js代码里的<img 标签。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP