打开这个网址 http://xin.cz3.nus.edu.sg/group/cjttd/ttd.asp 在Target Name中输入phosphatase然后submit链接到 http://xin.cz3.nus.edu.sg/group/cjttd/List.asp?SetQuery=Y 用程序抓取这个网页,却得不到东西。我认为是SetQuery=Y的原因,请各位高手指点指点,谢谢了!
by libiqing77 - Perl - 2009-04-02 09:56:25 阅读(1822) 回复(4)
抓取网页,先发送head,返回的信息只有expires,无last modifed. 如何根据http头返回的expires判断网页是否更新 比如返回的是 expires=Saturday, 20-Aug-11 02:11:46 GMT 是把这个时间和系统的时间比较看expires比系统时间(假设系统时间是正确的当前时间)迟还是早,迟就不用更新即重新抓网页,早就重新抓网页吗? 还是有其他方法呢?
// 需要得到 数据 的网址 var $URL; // 需要分析的开始标记 var $startFlag; //需要分析的结束标记 var $endFlag; // 存储 图片的路径 var $saveImagePath; //访问图片的路径 var $imageURL; // 列表内容 var $ListContent; //需要获得的图片路径 var $ImageList; //存储的图片名称 var $FileName; /** * 得到页面内容 * @return String 列表页面内容 */ function getPageConte...
比如,想搜集所有帖子的用户名,用户名在帖子中的源代码是 user2003 用什么样的语言能够比较方便的分析出所需要的内容,并完成这项工作?脚本类语言?有点跟搜索引擎似的,但是简单许多, 输入是某一特定网页或网页的源代码。 [ 本帖最后由 user2003 于 2007-1-11 13:25 编辑 ]
http://www.molecular-networks.com/online_demos/corina_demo.html 这个网址是提交小分子的化学式(N[C@@H](C)C(=O)O)后能生成 3D 结构,因需要生成很多的小分子3D结构,想写程序生成,望高手指点! 提交后会跳转到页面 http://www.molecular-networks.com/cgi-bin/corina/gen3dmolnet.tcl?smiles=N%5BC@@H%5D%28C%29C%28%3DO%29O&resultname=L-alanine 然后到页面 http://www.molecular-networks.com/tmp/corina000AnNYWn.h...
我现在遇到一个网页,这个网页很奇怪,页面内有很多超链接可以链接到其他的网页,但是网络地址始终不变。这个网页的地址为 http://apps.who.int/classifications/apps/icd/icd10online/ 我用程序抓取了其中的一个超链接,地址为 http://apps.who.int/classifications/apps/icd/icd10online/ka00.htm 但得到的为乱码,不知道是什么原因,有可能是编码问题。请各位高人指点,现将程序附上 #!/usr/bin/perl -w use LWP; open OUT ,...
今天同事做了一个我们感觉很牛B的彩票预测程序,采用的是遗传算法实现,于是我“剽”来学习先,但是部署到我电脑上以后,就有问题了: 1、用她的抓取程序得到的网页内容出现乱码,导致数据无法解析,苦思不得其解,今天终于在一个牛人的博客上得到正果,哈哈,抓取数据成功。 一下是处理java抓取网页乱码的解决方案,我这里测试通过哦。java 抓取网页乱码问题处理 String htmlContent = ""; ...