免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2353 | 回复: 2
打印 上一主题 下一主题

如何从网页代码中抽提展现在网页中的文字 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-06-21 11:15 |只看该作者 |倒序浏览
我想能在ie浏览器中看到的东西,全部抽提出来,但是不能有"<></>...."之类的代码

如:          <table border="0" cellspacing="3" cellpadding="1">
                <tr><td>Mapped EST Accession:</td><td><b>BE399426</b> &nbsp&nbsp&nbsp&nbsp[<a href=http://www.graingenes.org/cgi-bin/WebAce/webace?db=graingenes&class=Probe&object=BE399426>GrainGenes</a> &nbsp&nbsp|&nbsp&nbsp<a href=http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=search&db=nucest&term=BE399426>NCBI</a> &nbsp&nbsp|&nbsp&nbsp<a href=http://wheat.pw.usda.gov/cgi-bin/westsql/est_blast.cgi?q=BE399426&t=a>wEST-SQL</a>]&nbsp&nbsp&nbsp&nbsp <font color="red">Sequence Tagged Site in Relevant Diploid</font></td></tr>
                <tr><td>Orthologous Loci by Contig:</td><td><a href="/snpworld/Search?contigName=NSFT03P2_Contig14337&chromosome=2&genome=D">NSFT03P2_Contig14337</a></td></tr>           
                <tr><td>Bin:</td><td><a href="/snpworld/Search?bin=2DL3-0.49-0.76">2DL3-0.49-0.76</a></td></tr>
                <tr><td>Forward Primer Name:</td><td><a href="/snpworld/Search?primer=BE399426_cpF1&chromosome=2&genome=D">BE399426_cpF1</a></td></tr>
                <tr><td>Reverse Primer Name:</td><td><a href="/snpworld/Search?primer=BE399426_cpR1&chromosome=2&genome=D">BE399426_cpR1</a></td></tr>
                <tr><td>Chromosome/Genome:</td><td>2D</td></tr>
                <tr><td>Ref Plant:</td><td>Ae. tauschii, Armenia (At01, D) </td></tr>
                <tr><td valign="middle">Ref Sequence:</td><td><pre>        10        20        30        40        50
TTTGGAAATATCCTGTTACTGCTGCTGATGCATTCTTATTTTTTTTTCAT
GTATGATCTCCAGGCTGTTCGAGTTGGGGACTTAGAAGTGTTTAGAGCTG
TTGCAGAGAAATTTGGGAGCACTTTCAGTGCCGACAGGACATCCAATTTG
ATCGTGAGGCTGCGCCACAACGTCATCCGGACCGGACTACGCAACATTAG
CATTTCCTACTCACGTATCTCCCTTGCTGACATTGCCAAGAAACTGAGGC
TAGATACTAAGACCGCTGTTGCTGATGCTGAGAGCATTGTAGCCAAGGCC
ATCAGAGATGGGGCAATTGATGCCACCATTGATCATGCCAATGGCTGGGT
GGTGTCGAAAGAGACTGGCGACGTTTACTCAACAAACGAGCCACAGGCTG
CGTTTAACTCCAGGATTGCGTTCTGCCTGAACATGCACAACGAGGCAGTC
AAGGCTCTGAGGTTCCCCCCGAATTCTCACAAGGAAAA [488 bases] </pre></td></tr>
                <tr><td>Exon Ranges:</td><td>64-488</td></tr>
                <tr><td>Intron Ranges:</td><td>1-63</td></tr>
                <tr><td>Lab:</td><td>UCD</td></tr>
               
            </table>

即把红色部分提出来

论坛徽章:
0
2 [报告]
发表于 2008-06-21 12:58 |只看该作者
1)自己用正则式提取
2)用 HTML::Parser 之类的模块

论坛徽章:
0
3 [报告]
发表于 2008-06-22 06:43 |只看该作者
i think this script can do your work basically,you can try it

  1. #!/usr/bin/perl -w
  2. open(IN,"d:\\c.txt") || die "ERROR";
  3. open(OUT,">d:\\d.txt") || die "FLAG ERRORS!";
  4. $text = "";
  5. while($ri = <IN>) {
  6.         if ($ri =~ s/(\w+?)(\n)/$1/g){}
  7.         $text .= $ri;
  8. }
  9. if($text =~ s/\<.+?\>//g) {}
  10. if($text =~ s/\&nbsp//g) {}
  11. if($text =~ s/(\t+?)/\t/g) {}
  12. print OUT $text;
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP