R-B 发表于 2015-07-06 14:14

Java抓取网页内容

代码public static String fetchHtml(String urlString) {
    try {
      java.net.URL url = new java.net.URL(urlString); // 根据 String 表示形式创建 URL 对象。
      java.net.HttpURLConnection conn = (java.net.HttpURLConnection) url.openConnection(); // 返回一个 URLConnection 对象,它表示到 URL 所引用的远程对象的连接。
      java.io.InputStreamReader isr = new java.io.InputStreamReader(conn.getInputStream()); // 返回从此打开的连接读取的输入流。
      java.io.BufferedReader br = new java.io.BufferedReader(isr); // 创建一个使用默认大小输入缓冲区的缓冲字符输入流。

      String temp;
      StringBuffer html = new StringBuffer();
      while ((temp = br.readLine()) != null) { //按行读取输出流
            if (!temp.trim().equals("")) {
                html.append(temp).append("\n"); //读完每行后换行
            }
      }
      br.close(); //关闭
      isr.close(); //关闭
      return html.toString(); //返回此序列中数据的字符串表示形式。
    } catch (Exception e) {
      e.printStackTrace();
      return null;
    }
}
页: [1]
查看完整版本: Java抓取网页内容