免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1720 | 回复: 0
打印 上一主题 下一主题

httpclient抓取网页内容 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-10-20 11:10 |只看该作者 |倒序浏览
1.想下载远程URL地址的内容。可以使用httpclient现在整理一下相关的代码:
而且解决中文乱码问题
方法一:流转码
public String convertStreamToString(InputStream is) throws UnsupportedEncodingException {
        BufferedReader reader = new BufferedReader(new InputStreamReader(is,"gbk"));
        StringBuilder sb = new StringBuilder();
        String line = null;
        try {
            while ((line = reader.readLine()) != null) {
                sb.append(line + "\n");
            }
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
           try {
            is.close();
           } catch (IOException e) {
            e.printStackTrace();
           }
      }
      return sb.toString();
     }
//下载内容
private String urlContent(String urlString) throws HttpException, IOException {
        HttpClient client = new HttpClient();
        GetMethod get = new GetMethod("http://www.tianya.cn/publicforum/articleslist/0/no20.shtml");
        client.executeMethod(get);
        System.out.print(get.getResponseCharSet());
        InputStream iStream = get.getResponseBodyAsStream();
        String contentString = convertStreamToString(iStream);
        
        get.releaseConnection();
        return contentString;
    }
通过 GET方法能够实现下载网页内容出来的
               
               
               

本文来自ChinaUnix博客,如果查看原文请点:http://blog.chinaunix.net/u2/84280/showart_2073876.html
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP