免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2174 | 回复: 0
打印 上一主题 下一主题

Java抓取网页内容 [复制链接]

论坛徽章:
1
操作系统版块每日发帖之星
日期:2015-07-07 22:20:00
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-07-06 14:14 |只看该作者 |倒序浏览
[Java]代码
  1. public static String fetchHtml(String urlString) {
  2.     try {
  3.         java.net.URL url = new java.net.URL(urlString); // 根据 String 表示形式创建 URL 对象。
  4.         java.net.HttpURLConnection conn = (java.net.HttpURLConnection) url.openConnection(); // 返回一个 URLConnection 对象,它表示到 URL 所引用的远程对象的连接。
  5.         java.io.InputStreamReader isr = new java.io.InputStreamReader(conn.getInputStream()); // 返回从此打开的连接读取的输入流。
  6.         java.io.BufferedReader br = new java.io.BufferedReader(isr); // 创建一个使用默认大小输入缓冲区的缓冲字符输入流。

  7.         String temp;
  8.         StringBuffer html = new StringBuffer();
  9.         while ((temp = br.readLine()) != null) { //按行读取输出流
  10.             if (!temp.trim().equals("")) {
  11.                 html.append(temp).append("\n"); //读完每行后换行
  12.             }
  13.         }
  14.         br.close(); //关闭
  15.         isr.close(); //关闭
  16.         return html.toString(); //返回此序列中数据的字符串表示形式。
  17.     } catch (Exception e) {
  18.         e.printStackTrace();
  19.         return null;
  20.     }
  21. }
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP