免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 7122 | 回复: 2
打印 上一主题 下一主题

请教:字符串压缩算法的问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2010-02-16 21:49 |只看该作者 |倒序浏览
本帖最后由 mhello 于 2010-02-16 21:53 编辑

测试Haruhiko Okumura实现的LZSS算法时,发现这个算法实现对有重复子串或一大片重复单个字符的字符串有较好的压缩率,但是对于其他一些常见字符构成的字符串,如一个长的绝对文件路径名,压缩后的长度往往大于原始串的长度!
俺现在面对的字符串是一大堆文件的绝对路径名,由于有大量的“/”,使得重复子串出现的可能性大大降低,
试问各位高手大侠,有无其他什么字符串压缩算法更适合这种场合?

哪位高手大侠能解释一下前缀压缩算法的原理和实现?

论坛徽章:
15
射手座
日期:2014-11-29 19:22:4915-16赛季CBA联赛之青岛
日期:2017-11-17 13:20:09黑曼巴
日期:2017-07-13 19:13:4715-16赛季CBA联赛之四川
日期:2017-02-07 21:08:572015年亚冠纪念徽章
日期:2015-11-06 12:31:58每日论坛发贴之星
日期:2015-08-04 06:20:00程序设计版块每日发帖之星
日期:2015-08-04 06:20:00程序设计版块每日发帖之星
日期:2015-07-12 22:20:002015亚冠之浦和红钻
日期:2015-07-08 10:10:132015亚冠之大阪钢巴
日期:2015-06-29 11:21:122015亚冠之广州恒大
日期:2015-05-22 21:55:412015年亚洲杯之伊朗
日期:2015-04-10 16:28:25
2 [报告]
发表于 2010-02-17 22:26 |只看该作者
本帖最后由 yulihua49 于 2010-02-17 22:56 编辑
测试Haruhiko Okumura实现的LZSS算法时,发现这个算法实现对有重复子串或一大片重复单个字符的字符串有较好 ...
mhello 发表于 2010-02-16 21:49



    huffman
但huffman解压时需要一棵huffman树,数百字节的,所以压缩短字符串没什么意义。
不管什么算法,逐行压缩都是没什么效果的,通常把文件分成16-32K的块,整块压缩,一般是滑动压缩。

C-ISAM的索引压缩是压缩短信息的,包括前缀压缩,尾压缩,重复压缩,具体算法,当时有,没看懂。

论坛徽章:
0
3 [报告]
发表于 2010-02-19 14:04 |只看该作者
C-ISAM好像不是一般的复杂!看来简单的问题里藏着大学问呐!
俺这点智商要抓狂了!
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP