免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3482 | 回复: 7
打印 上一主题 下一主题

python字符串相似度处理性能问题求助 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-03-29 13:16 |只看该作者 |倒序浏览
文件中包含如下的内容:
aaaaaaaaaaa
bbbbbbbbbbbbb
aaaaaaaaaaaaaaa
bbbbbbbbbbbb
bbbbbbbbbbbbbbb

文件中行数大概有几十万行。

用python脚本对文件进行处理,统计相似度比较高的行及出现的次数。
如上的内容统计结果为:
aaaaaaaaaa 2
bbbbbbbbbbbbb 3

脚本如下:
def ansy_file(fileName):
    file = open(fileName)
    bFlag=0
    errorInfo={}
    dealTime=time.time()
    while 1:
        bFlag=0

        line = file.readline()
        if not line:
            break

       for k in errorInfo:
           s=difflib.SequenceMatcher(None, k, line)
           if(s.ratio()>0.6):
               count=errorInfo[k]
               errorInfo[k]=count+1
               bFlag=1
               break
       if(bFlag==0):
           errorInfo[lineErrorLog]=1

     print errorInfo.keys()

文件内容很大时,这个脚本处理时间非常长,需要处理一天的时间,请问有什么方法进行优化?

论坛徽章:
0
2 [报告]
发表于 2013-03-29 13:17 |只看该作者
在线等回复,谢谢

论坛徽章:
1
15-16赛季CBA联赛之新疆
日期:2017-03-09 12:33:45
3 [报告]
发表于 2013-03-29 20:29 |只看该作者
回复 1# jkh7


    还是没有明确你的想法,你没有说明你的真正的想法。因为你的相似是什么?假如你的比较方法,那就要得到你的相似。

论坛徽章:
0
4 [报告]
发表于 2013-03-30 09:13 |只看该作者
其实就是计算字符串的相似度,这个是有算法的:
1.编辑距离(Levenshtein Distance)
2.最长公共子串 (LCS)
3. 余弦定理 (向量空间算法)

我是在python里找了difflib的库实现计算,但是效率比较低,想请教跟高效率的算法。

论坛徽章:
16
IT运维版块每日发帖之星
日期:2015-10-02 06:20:00IT运维版块每月发帖之星
日期:2015-09-11 19:30:52IT运维版块每周发帖之星
日期:2015-09-11 19:20:31IT运维版块每日发帖之星
日期:2015-08-26 06:20:00每日论坛发贴之星
日期:2015-08-20 06:20:00IT运维版块每日发帖之星
日期:2015-08-20 06:20:002015年辞旧岁徽章
日期:2015-03-03 16:54:15金牛座
日期:2014-05-04 16:58:09双子座
日期:2013-12-17 16:44:37辰龙
日期:2013-11-22 15:20:59狮子座
日期:2013-11-18 22:55:08射手座
日期:2013-11-12 10:54:26
5 [报告]
发表于 2013-03-30 11:50 |只看该作者
split文件并行处理?所谓的文件merge算法?

论坛徽章:
0
6 [报告]
发表于 2013-04-01 12:24 |只看该作者
谢谢,我改用c语言实现了,性能提高很多。

论坛徽章:
1
2015年迎新春徽章
日期:2015-03-04 09:50:28
7 [报告]
发表于 2013-04-01 17:45 |只看该作者
参考一下这篇文章吧
http://blog.youxu.info/spell-correct.html

论坛徽章:
0
8 [报告]
发表于 2013-04-02 14:23 |只看该作者
谢谢,学习了
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP