免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2190 | 回复: 2
打印 上一主题 下一主题

从网页中提取数据 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2005-03-27 20:51 |只看该作者 |倒序浏览
网页内容:

<font class=f1491>牡羊座3月28日运程</font>
<!--START:HORO_TOMORROW-->
        <table width="100%" border="0" cellspacing="0" cellpadding="0">
        <tr>
        <td colspan="2"><p><b>牡羊座 Aries (03/21 - 04/19)</b><p></td>
    </tr>
    <tr><td colspan="2" height=30 class="w3"><p><p><p><table border=0><tr><td width=30%>
        <p><font color=003399 size=3>☉综合运势:</font><font color=6666CC size=3>★★★★</font><p>
<font color=003399 size=3>☉爱情运势:</font><font color=6666CC size=3>★★★★★</font><p><font col
or=003399 size=3>☉工作状况:</font><font color=6666CC size=3>★★★★</font><p><font color=003399 s
ize=3>☉理财投资:</font><font color=6666CC size=3>★★★</font><p><font color=003399 size=3>☉健康
指数:</font><font color=6666CC size=3>91%</font><p><font color=003399 size=3>☉商谈指数:</font><fo
nt color=6666CC size=3>87%</font><p><font color=003399 size=3>☉Lucky Color:</font><font color=6666
CC size=3>红色</font><p><font color=003399 size=3>☉Lucky Number:</font><font color=6666CC size=3>5
</font><p><font color=003399 size=3>☉速配星座:</font><font color=6666CC size=3>水瓶座</font><p><p
><p></td><td valign=top><!--<IFRAME MARGINHEIGHT=0 MARGINWIDTH=0 FRAMEBORDER=0 WIDTH=500 HEIGHT=350
SCROLLING=NO SRC="http://gd.sina.com.cn/ad/mentholatum/index.html"></IFRAME>--></td></tr><tr><td col
span=2><font color=000000 size=3>人际关系热络的时期,曾经一度失去连络的人在续前缘的暗示。<p>与很久未谋面的人有再相会的可能。当然由你主动去制造机会是最好的啦。而在彼此回忆往事的气氛下,有想要前往怀念的老地方的欲望,或者是遇到怀念的人,特别是异性的情况还有旧情死灰复燃的可能哟。</font><p><p><p></td></t
r></table>
        <p><p>
    </td>
        </tr>
        </table>


在文本中输出的内容:

牡羊座3月28日运程 牡羊座 Aries (03/21 - 04/19)




☉综合运势:★★★★

☉爱情运势:★★★★★

☉工作状况:★★★★

☉理财投资:★★★

☉健康指数:91%

☉商谈指数:87%

☉Lucky Color:红色

☉Lucky Number:5

☉速配星座:水瓶座



  
人际关系热络的时期,曾经一度失去连络的人在续前缘的暗示。
与很久未谋面的人有再相会的可能。当然由你主动去制造机会是最好的啦。而在彼此回忆往事的气氛下,有想要前往怀念的老地方的欲望,或者是遇到怀念的人,特别是异性的情况还有旧情死灰复燃的可能哟。

论坛徽章:
0
2 [报告]
发表于 2005-03-27 22:10 |只看该作者

从网页中提取数据

五年前我用PHP写过这么一个专爬新浪星运的爬虫
主要是用了strip_tags()函数

前两天在developerWorks上看到一篇更好玩的文章
Screen-scraping with XQuery
http://www-128.ibm.com/developerworks/java/library/j-jtp03225.html?ca=dgr-jw26XQuery
用XQuery来抓HTML中的数据
神奇吧

论坛徽章:
0
3 [报告]
发表于 2005-03-27 22:13 |只看该作者

从网页中提取数据

  1. sed 's/<\/.*>//g;s/<.*>//g' file
复制代码

大概能满足您的要求,条件每条内容不能有换行,如果有的话用perl的s命令吧,它的s修饰符可以跨行匹配~
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP