免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1108 | 回复: 0

网页抓取实现机制 [复制链接]

论坛徽章:
0
发表于 2011-12-20 09:48 |显示全部楼层
 

网页抓取实现机制(以查询特批号为例)

一、注册表增加IE邮件菜单

注册表文件内容:

Windows Registry Editor Version 5.00

 

[HKEY_CURRENT_USER\Software\Microsoft\Internet Explorer\MenuExt\P09校验特批号[z1] ]

@="http://10.74.xx.xx:xxxx[z2] /checktph.html[z3] "

 

二、抓取数据中间页面

   Checktph.html 内容:

<Script>

 Var address =external.menuArguments.document.all ('customerinfo$formAutoComprenhensive2007_editor_ADDRESS1[z4] ').value;

 Var date =external.menuArguments.document.all ('basicinfo$formAutoComprenhensive2007_editor_ISSUEDATE[z5] ').value;

 Var jbr = external.menuArguments.agentListDS.getValue ("STAFFCODE");[z6] 

If (address. length>=15 && !isNaN(address)) {

  Window. open ("http://10.74.xx.xx:xxxx/xxx/xxx/xxxx.do?address="+address+"&jbr="+jbr+"&date="+date,[z7] 

"校验特批号","height=300,width=900,top=0,left=0,toolbar=no,menubar=no,scrollbars=no,resizable=no,location=no,status=no");

  Window. Focus ();

 } else {

  alert("特批号不正确!");

 }

</script>

关键点在于external.menuArguments.[z8] document.all ('xxxx').value;

 

三、处理结果展示页面

     通过业务逻辑处理,将处理结果数据输出到展示页面,其内容为:

<TABLE width="783" border="0" align="center" cellPadding="0" cellSpacing="0">

    <TR align="center"><td>特批号校验结果</td></TR>

    <logic: equal property="count" value="0">

    <TR class="hcicontent"><td class="hcihead"><font color="red"><strong>查不到相关的特批号!</strong></font></td></TR>

    </logic: equal>

   

    <logic:notEqual property="count" value="0">

    <TR class="hcicontent"><td class="hcihead"><font color="red"><strong>特批号存在</strong></font>

      <logic:notEqual property="count" value="3"><font color="red"><strong>,但其他信息不正确!</strong></font></logic:notEqual></td></TR>

    <TR class="hcicontent"><td class="hcihead"><font color="blue"><strong>特批号名:<bean: write  property="name" /></strong></font></td></TR>

    <TR class="hcicontent"><td class="hcihead"><font color="blue"><strong>特批号起期:<bean: write  property="start" /></strong></font></td></TR>

    <TR class="hcicontent"><td class="hcihead"><font color="blue"><strong>特批号止期:<bean: write  property="end" /></strong></font></td></TR>

    </logic:notEqual>

   

    <logic: equal property="count" value="2">

    <TR class="hcicontent"><td class="hcihead">

         <font color="red"><strong>错误信息:<bean: write  property="date" />不在有效期内。</strong></font></td></TR>

    </logic: equal>

   

    <logic: equal property="count" value="1">

     <TR class="hcicontent"><td class="hcihead">

         <font color="red"><strong>错误信息:部门不匹配。</strong></font></td></TR>

    </logic: equal>

   

    <logic: equal property="count" value="4">

     <TR class="hcicontent"><td class="hcihead">

         <font color="red"><strong>错误信息:特批号不是有效状态。</strong></font></td></TR>

    </logic: equal>

</ TABLE >


 [z1]菜单名称

 [z2]Web服务器

 [z3]抓取数据中间页面

 [z4]地址字段

 [z5]日期字段

 [z6]经办人字段

 [z7]通过window. openurl传参向业务逻辑传递相关参数。

 [z8]右键的父页面对象,网上有很多例子。

源文件

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP