Dsheng 发表于 2014-08-31 15:33

BeautifulSoup只能部分解析html,请问怎么处理?

代码如下:#! /usr/bin/env python
# coding=utf-8

from bs4 import BeautifulSoup
import codecs

with codecs.open(savepath + '\\' + filename, 'r', encoding=r'utf-8') as fp:
    soup = BeautifulSoup(fp, from_encoding=r'utf-8')附件为html压缩包,解压即可。另外,chrom能够完整解析这份html。

huangxiaohen 发表于 2014-09-01 15:52

不知道你要提取什么,不过也页面很简单   <a href='/gp/yourstore/home' class='nav_a' id='nav-your-amazon'>Your Amazon.com</a>
                              <a href='/gp/goldbox' class='nav_a'>Today's Deals</a>
                              <a href='/gift-cards/b?ie=UTF8&node=2238192011' class='nav_a'>Gift Cards</a>
                              <a href='/gp/seller-account/mm-product-page.html?ie=UTF8&ld=AZSOAUSCSNav' class='nav_a'>Sell</a>
                              <a href='/gp/help/customer/display.html?ie=UTF8&nodeId=508510' class='nav_a'>Help</a>商品的链接,名字什么的都在标签里,直接提取就可以了.

Dsheng 发表于 2014-09-01 19:20

我想要提取类目链接,还有就是bestseller的产品。现在的问题是beautifulsoup不能完整解析这个html。
回复 2# huangxiaohen


   
页: [1]
查看完整版本: BeautifulSoup只能部分解析html,请问怎么处理?