免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3939 | 回复: 7
打印 上一主题 下一主题

数据库正规化和设计技巧 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2004-01-04 16:13 |只看该作者 |倒序浏览
在动态网站的设计中,数据库设计的重要性不言而喻。如果设计不当,查询起来就非常吃力,程序的性能也会受到影响。无论你使用的是mySQL或者Oracle数据库,通过进行正规化的表格设计,可以令你的PHP代码更具可读性,更容易扩展,从而也会提升应用的性能。
  简单说来,正规化就是在表格设计时,消除冗余性和不协调的从属关系。在本文中,我将通过五个渐进的过程来告诉你在设计中应该了解的正规化技巧。从而建立一个可行而且效率高的数据库。本文也会详细分析一下可以利用的关系类型。

  这里假定我们要建立一个用户信息的表格,其中要存储用户的名字、公司、公司地址和一些个人的收藏夹或url。在开始时,你可能定义一个如下的表格结构:

零状态形式

users
name company company_address url1 url2
Joe ABC 1 Work Lane abc.com xyz.com
Jill XYZ 1 Job Street abc.com xyz.com


  由于没有进行任何的正规化处理,我们将这种形式的表称为零状态形式的表。留意其中的url1和url2字段---如果我们在应用中需要第三个url呢?这样你就要在表格中多加一列,很明显,这不是一个好办法。如果你要创建一个富有扩展性的系统,你就要考虑使用第一个正规化的形式,并且应用到该表格中。

第一级正规化形式

1.消除每个表格中重复的组
2.为每套相关的数据建立一个独立的表格
3.使用一个主键来标识每套相关的数据

  以上的表格明显违反了上面第一条的规定,那么第三条的主键又是什么意思呢?很简单,它只是在每个记录中加入一个唯一的、自动增加的整型值。通过这个值,就可以将两个姓名一样的记录区分开来。通过应用第一级正规化形式,我们得到了以下的表格:

users
userId name company company_address url
1 Joe ABC 1 Work Lane abc.com
1 Joe ABC 1 Work Lane xyz.com
2 Jill XYZ 1 Job Street abc.com
2 Jill XYZ 1 Job Street xyz.com

  现在我们的表格可以说已经处在第一级正规化的形式了,它已经解决了url字段的限制问题,不过这样的处理后又带来了一个新的问题。每次在user表中插入一条记录的时候,我们都必须重复所有的公司和用户数据。这样不仅令数据库比以前大了,而且很容易出错。因此还要经过第二级正规化处理。
第二级正规化形式

1.为应用在多条记录的字段建立独立的表格
2.通过一个foreign key来关联这些表格的值

  我们将url的值放在一个独立的表格中,这样我们就可以在以后加入更多的数据,而无需担心产生重复的值。我们还通过主键值来关联这些字段:

users
userId name company company_address
1 Joe ABC 1 Work Lane
2 Jill XYZ 1 Job Street

urls
urlId relUserId url
1 1 abc.com
2 1 xyz.com
3 2 abc.com
4 2 xyz.com

  如上所示,我们创建了独立的表格,users表中的主键userid现在与url表中的foreign key relUserId关联。现在的情况好象已经得到了明显的改善。不过,如果我们要为ABC公司加入一个员工记录呢?或者更多,200个?这样我们就必须重复使用公司名和地址,这明显不够冗余。因此我们将应用第三级正规化方法:

第三级正规化形式

1.消除不依赖于该键的字段

公司名及地址与User Id都是没有关系的,因此它们应用拥有自己的公司Id:

users
userId name relCompId
1 Joe 1
2 Jill 2

companies
compId company company_address
1 ABC 1 Work Lane
2 XYZ 1 Job Street


urls
urlId relUserId url
1 1 abc.com
2 1 xyz.com
3 2 abc.com
4 2 xyz.com


  这样我们就将companies表中的主键comId和users表中名字为relCompId的foreign key关联起来,就算为ABC公司加入200个员工,在companies中也只有一条记录。我们的users和urls表可以不断地扩大,而无需担心插入不必要的数据。大部分的开发者都认为经过三步的正规化就足够了,这个数据库的设计已经可以很方便地处理整个企业的负担,此看法在大多数的情况下是正确的。

  我们可以留意一下url的字段--你注意到数据的冗余了吗?如果给用户用户输入这些url数据的HTML页面是一个文本框,可任意输入的话,这并没有问题,两个用户输入同样收藏夹的概率较少,不过,如果是通过一个下拉式的菜单,只让用户选择两个url输入,或者更多一点。这种情况下,我们的数据库还可以进行下一级别的优化--第四步,对于大多数的开发者来说,这一步都是忽略的,因为它要依赖一个很特别的关系--一个多对多的关系,这在我们的应用中是还没有遇到过的。
数据关系

  在定义第四个正规化的形式前,我想首先提一下三种基本的数据关系:一对一,一对多和多对多。我们回头看一下经过第一个正规化的users表。要是我们将url的字段放在一个独立的表中,每次在users表中插入一个记录,我们就会在urls表中插入一行。我们将得到一个一对一的关系:用户表中的每一行,都将在urls表中找到相应的一行。对于我们的应用来说,这既不实用也不标准。

  然后看看第二个正规化的例子。对于每个用户记录,我们的表格允许有多个urls的记录与之关联。这是一个一对多的关系,这是一个很常见的关系。

  对于多对多的关系来说,就有点复杂了。在我们的第三个正规化形式的例子中,我们的一个用户与很多的url有关,而我们想将该结构变为允许多个用户与多个的urls有关,这样我们就可以得到一个多对多的结构。在讨论前,我们先看看表格结构会有些什么变化

users
userId name relCompId
1 Joe 1
2 Jill 2

companies
compId company company_address
1 ABC 1 Work Lane
2 XYZ 1 Job Street


urls
urlId url
1 abc.com
2 xyz.com


url_relations
relationId relatedUrlId relatedUserId
1 1 1
2 1 2
3 2 1
4 2 2


  为了进一步减低数据的冗余,我们运用第四级正规化形式。我们创建了一个颇奇怪的url_relations表,里面的字段均为主键或者foreign key。通过这个表,我们就可以消除urls表中的重复项目。以下是第四个正规化形式的具体要求:

第四个正规化形式

1.在一个多对多的关系中,独立的实体不能存放在同一个表格中

  由于它仅应用于多对多的关系,因此大多数的开发者可以忽略这条规定。不过在某些情况下,它是非常实用的,这个例子就是这样,我们通过将相同的实体分离出来,并且将关系移到它们自己的表格中,从而改进了urls表格。

为了令你更容易明白,我们举个具体的例子,以下将用一个SQL语句选择出所有属于joe的urls:

SELECT name, url FROM users, urls, url_relations
WHERE url_relations.relatedUserId = 1
AND users.userId = 1 AND urls.urlId = url_relations.relatedUrlId

如果我们想要遍历每个人的个人信息和url信息,我们可以这样做:

SELECT name, url FROM users, urls, url_relations
WHERE users.userId = url_relations.relatedUserId
AND urls.urlId = url_relations.relatedUrlId

第五级正规化形式

还有一级正规化的形式,它并不常见,有点深奥,并且在大部分的情况下都是不必要的。它的原则是:

1.原来的表格必须可以通过由它分离出去的表格重新构建

  使用这个规定的好处是,你可以确保不会在分离的表格中引入多余的列,所有你创建的表格结构都与它们的实际需要一样大。应用这条规定是一个好习惯,不过除非你要处理一个非常大型的数据,否则你将不需要用到它。

  希望这篇文章对你有用,并且可以帮助你在所有的项目中应用这些正规化的规定。你可能想知道这些方法是从哪来的,我可以告诉你,前面三个正规化的规定是1972年,Dr. E.F. Codd在他的论文“进一步正规化数据库的关系模型中”提出的,其余的规定是经过后来的集合理论和关系数学家理论化的。 评论:正所谓物级必反,将表格分得过细有时并不好,因为这样需要将各表进行各种的关联,这会令查询时变得复杂,而且效率也可能降低,这些正规化的规定可以参考,在实际应用时,要根据项目的大小,必要时可以进行一些测试,以设计出更合理的表格结构。

论坛徽章:
0
2 [报告]
发表于 2004-01-04 18:09 |只看该作者
恩, 偶来在深入解释一下正规化的概念
在这之前要先说一下, 关系表的概念, 只要是每行数据都可以不重复, 这样的表就是一个关系表
现在来看一下上面的例子
name company company_address url1 url2
这个表就不是一个关系表, 为什么这么说呢, 问题出在url1和url2上
这两个字段具有相同的意义, 因此
name company company_address url1 url2

name company company_address url2 url1(请注意它们的次序)
可以是完全一样的记录, 也就是说这样的结构不能防止重复记录的出现
使它变成关系表的方法 就如上面说的变成这样
name company company_address url
不过, 上面说一定要加入的那个逻辑主键, 有些不以为然, 即使没有加入这个主键, 这个表已经完成了一级正规化了,

一级正规化的定义就是: 表中的每一行记录都和其他记录不同(只要满足关系表的要求也就满足了一级正规化的要求)

接下来定义表的主键
主键的定义是能够确定其它字段值的字段集(主键是可以由多个字段复合的)
再来看这个例子,
name company company_address url
用名字可以确定一个人, 同时也就知道了他的公司和他收藏的URL
那么用名字做主键是不是达到了第二级正规化的要求了呢?
没有, 原因是如果知道了公司也就知道了公司地址, 换句话说, 在这样一个表中company_address没有对主键发生依赖关系,
第二级正规化的定义就是, 所有非主键字段都和主键有依赖关系
那么如何对这个表做第二级正规化呢? 其实很简单
只要把公司也变成一个主键就可以了
name(PK) company(PK) company_address url

接下来, 来讨论第三级正规化
第三级正规化的定义是, 所有非主键字段必须且只能对全部主键有依赖关系(严格的说, 只要做到必须就是三级了而又做到只能就是所谓的B级-BNF介于三四之间的一级)
上面那个表就不满足要求, 因为url可以只由name来决定, 而company_address则只由company来决定
那么怎样做第三级正规化呢? 其实很简单, 只要把去有不完全关系的字段分离出来单独做表, 建主键就OK了
就是这样两个表
name(PK) company(FK) url
company(PK) company_address
至此, 在这个简单的例子已经没有更高的正规化形式了
通常, 做到这个程度就够了
那么第四级正规化, 又是什么样子呢?
偶就不举例子了, 只给一个定义
第四级正规化的定义是, 所有主键字段必须相互独立, 就是主键之间没有依赖关系
至于第五级正规化, 咳咳, 因为从来不用, 偶已经忘光了
大概是说外键之间不能有依赖性吧

论坛徽章:
0
3 [报告]
发表于 2004-01-04 18:20 |只看该作者
哈哈,能做到第三范式就不错了,而且达到这样的条件好象也不是很难

论坛徽章:
0
4 [报告]
发表于 2004-01-05 21:05 |只看该作者
范式的东西有时候在进入物理设计的时候不得不故意违反。

当然设计表努力去遵循范式是有好处的,冗余少,效率高。

论坛徽章:
0
5 [报告]
发表于 2004-01-05 22:35 |只看该作者
恩, 事实上正规化的设计方法, 是一种很古典方法, 现在有了很多新的简便易懂的方法, 比如ER图就是一种很有名的方法, 用ER图做出来的表是肯定满足第三范式的.
看来有必要讲解一下ER模型了, 呵呵, 找找资料先

论坛徽章:
0
6 [报告]
发表于 2004-01-06 08:22 |只看该作者
最初由 lodge 发布
[B]恩, 事实上正规化的设计方法, 是一种很古典方法, 现在有了很多新的简便易懂的方法, 比如ER图就是一种很有名的方法, 用ER图做出来的表是肯定满足第三范式的.
看来有必要讲解一下ER模型了, 呵呵, 找找资料先 [/B]


ER是数据库逻辑设计和物理设计的基础啊

论坛徽章:
0
7 [报告]
发表于 2005-01-16 22:43 |只看该作者

大家好

请问一个表的外键是不是一定也是这个表的主键?

论坛徽章:
0
8 [报告]
发表于 2005-01-17 15:16 |只看该作者
范式是把双刃剑!要看你怎么使才能显示出威力而不伤害自己!
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP