免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: nickleeh
打印 上一主题 下一主题

请教:python处理文本 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2009-01-09 09:16 |只看该作者
原帖由 weizi 于 2009-1-8 22:11 发表
第三组就有问题了。

北京劲松店 北京市 朝阳区 劲松南路5号楼
北京奥运村店 北京市 朝阳区 奥体东门安苑东里1区4号
北京国贸店 北京市朝阳区西大望路下甸厂坡村16号(八王坟长途汽车站对... 北京奥运村二店 ...



多谢! 现实中的数据总是不理想,处理起来还真不容易。上面有人说用正则表达式,不知道是否容易实现。我不是专业程序员,如果我自己编个程序要很久也不行,我会选择用vim录制宏,然后修改一下。

非常感谢大家。我对python还是充满信心的。有时间好好学习一下!

论坛徽章:
0
12 [报告]
发表于 2009-01-09 09:41 |只看该作者
这个处理方式有问题,把你网上那个查询的地址发出来,不要把结果复制到文本。你复制到文本,反而打乱了顺序。

论坛徽章:
0
13 [报告]
发表于 2009-01-09 10:40 |只看该作者
刚接触python, 还在看书
代码幼稚,不许笑!

LZ的问题类似
aaaa bbbb cccc dddd eeee ffff gggg hhhh iiii jjjj kkkk llll

可以这么解决:

a='aaaa bbbb cccc dddd eeee ffff gggg hhhh iiii jjjj kkkk llll'
a=a.split()
i=0
while i <len(a1):
        print a1,a1[i+1],a1[i+2],a1[i+3]
        i+=4

论坛徽章:
0
14 [报告]
发表于 2009-01-10 16:36 |只看该作者
原帖由 carrison 于 2009-1-9 10:40 发表
刚接触python, 还在看书
代码幼稚,不许笑!

LZ的问题类似
aaaa bbbb cccc dddd eeee ffff gggg hhhh iiii jjjj kkkk llll

可以这么解决:

a='aaaa bbbb cccc dddd eeee ffff g ...



1. a=a.split()应该是a1=a.split()吧。。
2. 如果len(a1)%4!=0,你的代码是不是有越界访问而崩溃的可能?

论坛徽章:
0
15 [报告]
发表于 2009-01-11 15:43 |只看该作者

回复 #1 nickleeh 的帖子

注意有一个***店,这算是规则吗?

论坛徽章:
0
16 [报告]
发表于 2009-01-12 10:41 |只看该作者
原帖由 dreamerx2004 于 2009-1-10 16:36 发表



1. a=a.split()应该是a1=a.split()吧。。
2. 如果len(a1)%4!=0,你的代码是不是有越界访问而崩溃的可能?

你说的太对了

论坛徽章:
1
天秤座
日期:2014-04-27 07:42:20
17 [报告]
发表于 2009-01-12 10:57 |只看该作者
不规则数据很难完全用机器来处理的。

论坛徽章:
0
18 [报告]
发表于 2009-01-12 11:22 |只看该作者
原帖由 A.com 于 2009-1-12 10:57 发表
不规则数据很难完全用机器来处理的。

所以在处理之前先要对数据预处理一下

论坛徽章:
1
天秤座
日期:2014-04-27 07:42:20
19 [报告]
发表于 2009-01-14 11:05 |只看该作者
数据量M级别的还好,努力努力花个几天功夫也就人工处理了。如果是G级别的,就只能依靠机器了。我也曾遇到这个类似问题,方法就是设置局部条件多次处理,这种办法如果条件设置得不恰当的话,是会破坏原始数据的。很危险。。。

论坛徽章:
0
20 [报告]
发表于 2009-01-18 16:36 |只看该作者
原帖由 makao007 于 2009-1-11 15:43 发表
注意有一个***店,这算是规则吗?


同注意, 正则吧 :>
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP