免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2661 | 回复: 9
打印 上一主题 下一主题

怎样用程序得到博客的源代码? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2007-04-02 14:20 |只看该作者 |倒序浏览
各位路过者:
     大家好!!怎样通过程序得到一些网站博客的源代码阿?比如搜狐的,得不到阿!

     有知道的吗?指点一下子!!谢谢

论坛徽章:
0
2 [报告]
发表于 2007-04-02 16:08 |只看该作者
一些是防盗链,不过比较少

主要还是因为JS问题

论坛徽章:
0
3 [报告]
发表于 2007-04-02 16:17 |只看该作者
请问wobushiwo 知不知道怎么解决阿?谢谢!

论坛徽章:
0
4 [报告]
发表于 2007-04-02 18:15 |只看该作者
具体到一点

比如有  列表页面 --> 内容页面

像有一些使用了AJAX,一个列表页面,里面的具体内容是通过AJAX去读取...这时你只能去分析它的JS,具体是去访问了哪,然后你的程序将根据规律直接去访问这些网址,得到真正的列表内容(可能是XML的,还需再进行分析)


得到列表,那得到内容页面的连接不在话下了,内容页面应该很少用AJAX了(这里指主内容部分),直接访问可获得内容


假如你知道 内容页面的连接 的规律,也可以绕过第一步,直接获取

论坛徽章:
0
5 [报告]
发表于 2007-04-03 08:52 |只看该作者
谢谢wobushiwo ,非常感谢!先按你说的试试,有问题再请教!!

论坛徽章:
0
6 [报告]
发表于 2007-04-03 10:05 |只看该作者
现在是这样的情况,我用这样一个简单的方法,可以得到其他网页的源码,但是对于搜狐的博客的源码得不到,出现这样的东西:“发生错误

,您可将此错误报告给我们,我们将非常感谢您的反馈。”

我用的下载的代码是这样的:
public static String downLoadPage(String url, HttpClient client) throws
      Exception {
    String returnStr = "";
    byte[] bytes = null;
    URL host = new URL(url);
    GetMethod getMethod = null;
    getMethod = new GetMethod(host.getFile());
    client.getHostConfiguration().setHost(host.getHost(), 80, "http");
    int code = client.executeMethod(getMethod);
    if (code == 200) {
      bytes = getMethod.getResponseBodyAsString().getBytes("ISO-8859-1");
      returnStr = new String(bytes);
      return returnStr;
    }
    else {
      return "";
    }

  }
请知道的给与指导,非常感谢!

论坛徽章:
0
7 [报告]
发表于 2007-04-03 10:21 |只看该作者
重点是下载的地址?  还有这地址是怎么分析出来的?

一般的下载代码都差不多吧

论坛徽章:
0
8 [报告]
发表于 2007-04-03 13:19 |只看该作者
下载代码差不多?可是这个下不了博客。不知道楼上的是什么意思哦?

论坛徽章:
0
9 [报告]
发表于 2007-04-03 14:59 |只看该作者
就是说可能重点不在这下载代码上,你要分析,你下的是哪?到哪下载?

论坛徽章:
0
10 [报告]
发表于 2007-04-04 14:50 |只看该作者
问题解决,谢谢楼上!
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP