免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2034 | 回复: 8
打印 上一主题 下一主题

问一个关于文件校验的问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-08-25 09:36 |只看该作者 |倒序浏览
试想问下:

如下文件:

a.exe    b.txt   c.gif    d.rar

如果这四个文件的MD5值 是一样的 ,  那么我们能不能判断这四个文件的内容是一样的   ?

抛开前段炒得比较火的MD5碰撞一说  ;

论坛徽章:
36
IT运维版块每日发帖之星
日期:2016-04-10 06:20:00IT运维版块每日发帖之星
日期:2016-04-16 06:20:0015-16赛季CBA联赛之广东
日期:2016-04-16 19:59:32IT运维版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-19 06:20:00每日论坛发贴之星
日期:2016-04-19 06:20:00IT运维版块每日发帖之星
日期:2016-04-25 06:20:00IT运维版块每日发帖之星
日期:2016-05-06 06:20:00IT运维版块每日发帖之星
日期:2016-05-08 06:20:00IT运维版块每日发帖之星
日期:2016-05-13 06:20:00IT运维版块每日发帖之星
日期:2016-05-28 06:20:00每日论坛发贴之星
日期:2016-05-28 06:20:00
2 [报告]
发表于 2008-08-25 09:41 |只看该作者
我觉得不能代表文件内容相同。纯粹个人觉得,MD5算法没怎么研究过。
但是Hash值得冲突倒是了解一些,hash相同的两个东东,不一定本身内容也相同。

论坛徽章:
0
3 [报告]
发表于 2008-08-25 09:45 |只看该作者
个人觉得,如果MD5一样,基本上就是一样的

但是由于碰撞的存在,如果是关键部分,需要确保一样

可以抽取文件中的一部分,作为样本,直接比较


把文件直接按位进行比较,是最保险,最万能的方法

论坛徽章:
36
IT运维版块每日发帖之星
日期:2016-04-10 06:20:00IT运维版块每日发帖之星
日期:2016-04-16 06:20:0015-16赛季CBA联赛之广东
日期:2016-04-16 19:59:32IT运维版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-19 06:20:00每日论坛发贴之星
日期:2016-04-19 06:20:00IT运维版块每日发帖之星
日期:2016-04-25 06:20:00IT运维版块每日发帖之星
日期:2016-05-06 06:20:00IT运维版块每日发帖之星
日期:2016-05-08 06:20:00IT运维版块每日发帖之星
日期:2016-05-13 06:20:00IT运维版块每日发帖之星
日期:2016-05-28 06:20:00每日论坛发贴之星
日期:2016-05-28 06:20:00
4 [报告]
发表于 2008-08-25 09:47 |只看该作者
原帖由 net_robber 于 2008-8-25 09:45 发表
个人觉得,如果MD5一样,基本上就是一样的

但是由于碰撞的存在,如果是关键部分,需要确保一样

可以抽取文件中的一部分,作为样本,直接比较


把文件直接按位进行比较,是最保险,最万能的方法


MD5和HASH实现的方式,或者是套路 是没有可比性的,我理解的对吗

论坛徽章:
0
5 [报告]
发表于 2008-08-25 09:55 |只看该作者
原帖由 Godbach 于 2008-8-25 09:41 发表
我觉得不能代表文件内容相同。纯粹个人觉得,MD5算法没怎么研究过。
但是Hash值得冲突倒是了解一些,hash相同的两个东东,不一定本身内容也相同。



突然想到迅雷的 ,

迅雷是个多点抓取的 , 他抓取的网站可以从  A网站  .. 到 N网站的 数据  ..

他是怎么来判断文件的一致的 ,  因为每个网站的数据, 比如文件名,以及一些介绍可能都不一样 ..

我觉得他不可能是完全依赖他本身收集的数据库来做判断的 , 因为每个网站都有可能随时变动的,比如链接地址 ,链接的文件

论坛徽章:
36
IT运维版块每日发帖之星
日期:2016-04-10 06:20:00IT运维版块每日发帖之星
日期:2016-04-16 06:20:0015-16赛季CBA联赛之广东
日期:2016-04-16 19:59:32IT运维版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-19 06:20:00每日论坛发贴之星
日期:2016-04-19 06:20:00IT运维版块每日发帖之星
日期:2016-04-25 06:20:00IT运维版块每日发帖之星
日期:2016-05-06 06:20:00IT运维版块每日发帖之星
日期:2016-05-08 06:20:00IT运维版块每日发帖之星
日期:2016-05-13 06:20:00IT运维版块每日发帖之星
日期:2016-05-28 06:20:00每日论坛发贴之星
日期:2016-05-28 06:20:00
6 [报告]
发表于 2008-08-25 10:07 |只看该作者
一般也就是用MD5来检验一个文件是否正确。那LZ实际中也遇到这样的情况了吗?

论坛徽章:
0
7 [报告]
发表于 2008-08-25 10:24 |只看该作者
原帖由 Godbach 于 2008-8-25 10:07 发表
一般也就是用MD5来检验一个文件是否正确。那LZ实际中也遇到这样的情况了吗?



没有, 我现在在做相关这方面的 , 也是多个网站抓取的,

比如同时抓取 A, B 两网站的数据 . 我怕有一天某个网站的数据有变化,   就想在抓取A,B网站数据的时候, 先把两个网站的数据文件 先进行一次MD5比较, 正确的才去抓取 ..

就问下用MD5来做校验的话, 理论上是不是可行 ..

论坛徽章:
0
8 [报告]
发表于 2008-08-25 12:12 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
9 [报告]
发表于 2008-08-25 12:20 |只看该作者
MD5相同而文件内容不同的概率,应该远小于我们中500万的概率,如果你不放心,再加上SHA吧
现在大部分的软件发布,会同时带有MD5和SHA
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP