免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2334 | 回复: 5
打印 上一主题 下一主题

求助,这个代码采集在文本中为什么是乱码? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2010-02-22 10:35 |只看该作者 |倒序浏览
# 请直接输入70925,那么只采二条作测试
# -*- coding: cp936 -*-
import urllib,urllib2
import time,random
import re

lastnumber=raw_input('上个advertisement ID是: ')
outfname=('.\\advertisement.txt')
outfile=open(outfname,'w')

IDnumber=int(lastnumber)
NotFound=0
MaxIDnumber=999999
results=[]
initUrl='http://app1.sfda.gov.cn/datasearch/face3/content.jsp?tableId=39&tableName=TABLE39&tableView=药品广告&Id='

def fetch(url):
    while True:
        try:   
            temp=[]
            outtemp=[]
            i=1
            page=urllib.urlopen(url).read()
            pat=re.compile('listmain(.*)<td onclick',flags=16)
            cont=pat.search(page).group(0)
            cont=cont.replace('<br>',' ')
            cont=cont.replace('</td>',' </td>')
            cont=cont.replace('\n',' ')
            cont=cont.replace('\r',' ')
            cont=cont.replace('</a>',' ')
            contfinal=cont.replace('null);">','null);">width=83%>')

            tmp=contfinal.split('width=83%>')
            for i in range(1,len(tmp)):
                temp=tmp[i].split('</td></tr>')
                outtemp.append(temp[0])
                i=i+2            
            return (outtemp)
        except:
            print 'A,O'
            time.sleep(random.choice(range(5,15)))

        
def lastlet(s):
    s=s.strip()
    ll=s[-1]
    for let in s[-1::-1]:
        if let.isdigit():
            continue
        else:
            ll=let
            break
    return ll


for IDs in range(IDnumber,MaxIDnumber):
    urls=initUrl+str(IDs)
    print urls
    results=fetch(urls)
#    print results
    if IDs%100==0:
        print 'I am resting'
        time.sleep(random.choice(range(1,5)))
   
    if results:
#        CertificationNo=results[0]
#        CertificationType=lastlet(CertificationNo)
#        if CertificationType=='H':
#            extra='Chemical'
#        elif CertificationType=='S':
#            extra='Biological'
#        elif CertificationType=='Z':
#            extra='TCM'
#        elif CertificationType=='F':
#            extra='Accessory'
#        else:
#            extra='Packing material'

        results_tmp=[x for x in results]
        extra=str(IDs)
        results_tmp.append(urls)
        
        NotFound=0

        outfile.write('\t'.join(results_tmp))
        outfile.write('\n')
    else:
        NotFound=NotFound+1
        if NotFound>100:
            if IDs<10000:
                NotFound=0
            else:
                break
        
outfile.close()

print 'Congratulations, work done!'
raw_input('Press return to finish.')

# 请帮我修改一下,谢谢了

论坛徽章:
1
天蝎座
日期:2013-10-23 21:11:03
2 [报告]
发表于 2010-02-22 11:41 |只看该作者
ms没有识别页面采用的字符编码
抓页面时需要识别页面字符编码,必要时需要进行转换

论坛徽章:
0
3 [报告]
发表于 2010-02-22 12:04 |只看该作者
ms没有识别页面采用的字符编码
抓页面时需要识别页面字符编码,必要时需要进行转换
openspace 发表于 2010-02-22 11:41



    怎么写

论坛徽章:
1
天蝎座
日期:2013-10-23 21:11:03
4 [报告]
发表于 2010-02-22 12:55 |只看该作者
http://chardet.feedparser.org/
通过该模块可以检测页面编码

论坛徽章:
0
5 [报告]
发表于 2010-02-22 14:06 |只看该作者
通过该模块可以检测页面编码
openspace 发表于 2010-02-22 12:55



    能帮我写个句子转换吗?

论坛徽章:
1
天蝎座
日期:2013-10-23 21:11:03
6 [报告]
发表于 2010-02-22 17:13 |只看该作者
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP