免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 5373 | 回复: 3
打印 上一主题 下一主题

[数据库] oracle删除重复的行 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-11-14 10:26 |只看该作者 |倒序浏览
本帖最后由 linux_kaige 于 2012-11-14 11:28 编辑

需求:当多行tid重复时,保留tid小的的行,其他重复的行删除。

原书数据:
select t.*,t.rowid from test12 t;
TID        TNAME        TTIME        SSEX        ROWID
11        12                                      AAAMP+AAEAAAAC0AAA
111        1a2                                     AAAMP+AAEAAAAC0AAB
21        2121                    2012-11-13 15:30:45                AAAMP+AAEAAAAC0AAC
21        2121                    2012-11-13 15:41:18        男        AAAMP+AAEAAAAC0AAD
23        2121                    2012-11-13 15:41:31        女        AAAMP+AAEAAAAC0AAE
23        2121                    2012-11-13 15:41:48        nv        AAAMP+AAEAAAAC0AAF

实现:通过rowid
select s.tid,min(s.rowid) from test12 s,test12 t where t.tid=s.tid group by s.tid;

11        AAAMP+AAEAAAAC0AAA
21        AAAMP+AAEAAAAC0AAC
23        AAAMP+AAEAAAAC0AAE
111        AAAMP+AAEAAAAC0AAB

select s.tid,s.rowid from test12 s,test12 t where s.rowid>t.rowid and t.tid=s.tid;
21        AAAMP+AAEAAAAC0AAD
23        AAAMP+AAEAAAAC0AAF

select s.tid,s.rowid from test12 s,test12 t where s.rowid<t.rowid and t.tid=s.tid;
21        AAAMP+AAEAAAAC0AAC
23        AAAMP+AAEAAAAC0AAE

删除方法一:成功!
delete test12 t where t.rowid not in (select min(s.rowid) from test12 s where t.tid=s.tid group by s.tid);----如果是保留最大的唯一行,换max即可。
TID        TNAME        TTIME        SSEX        ROWID
11        12                                      AAAMP+AAEAAAAC0AAA
111        1a2                                     AAAMP+AAEAAAAC0AAB
21        2121                    2012-11-13 15:30:45                AAAMP+AAEAAAAC0AAC
23        2121                    2012-11-13 15:41:31        女        AAAMP+AAEAAAAC0AAE

删除方法二:失败!
delete test12 t where t.rowid in (select s.rowid from test12 s where s.tid=t.tid and s.rowid>t.rowid);

解:
由于这个例子的特殊性,所以select s.tid,s.rowid from test12 s,test12 t where s.rowid>t.rowid and t.tid=s.tid;

select s.tid,s.rowid from test12 s,test12 t where s.rowid<t.rowid and t.tid=s.tid;可以查询出来正确的结果。

测试:
insert into test12 values(23,'fsf',sysdate,'F');
insert into test12 values(23,'fsf',sysdate,'M');

select t.*,t.rowid from test12 t;
TID        TNAME        TTIME        SSEX        ROWID
11        12                                      AAAMP+AAEAAAAC0AAA
111        1a2                                     AAAMP+AAEAAAAC0AAB
21        2121                    2012-11-13 15:30:45                AAAMP+AAEAAAAC0AAC
21        2121                    2012-11-13 15:41:18        男        AAAMP+AAEAAAAC0AAD
23        2121                    2012-11-13 15:41:31        女        AAAMP+AAEAAAAC0AAE
23        2121                    2012-11-13 15:41:48        nv        AAAMP+AAEAAAAC0AAF
23        fsf                     2012-11-14 10:09:14        F         AAAMP+AAEAAAAC2AAA
23        fsf                     2012-11-14 10:11:50        M         AAAMP+AAEAAAAC2AAB

错误结果一:
select s.tid,s.rowid from test12 s,test12 t where s.rowid>t.rowid and t.tid=s.tid;
21        AAAMP+AAEAAAAC0AAD
23        AAAMP+AAEAAAAC2AAB
23        AAAMP+AAEAAAAC2AAA
23        AAAMP+AAEAAAAC0AAF
23        AAAMP+AAEAAAAC2AAB
23        AAAMP+AAEAAAAC2AAA
23        AAAMP+AAEAAAAC2AAB

错误结果二:
select s.tid,s.rowid from test12 s,test12 t where s.rowid<t.rowid and t.tid=s.tid;
21        AAAMP+AAEAAAAC0AAC
23        AAAMP+AAEAAAAC0AAE
23        AAAMP+AAEAAAAC0AAF
23        AAAMP+AAEAAAAC0AAE
23        AAAMP+AAEAAAAC2AAA
23        AAAMP+AAEAAAAC0AAF
23        AAAMP+AAEAAAAC0AAE

由于是比较,两个表,以笛卡尔积的方式,进行对比,取小的rowid(错误二的例子),首选s表的第一行(tid为23第一行)AAAMP+AAEAAAAC0AAE
与t表的第一比较,相等,无结果;与第二行,第三行,第四行(tid为23的四行),均最小,则,有三条结果;然后s表的第二行开始比较,比t表的第一行大,与第二行相等,比第三、四行相等,则有两条结果;然后s表的第三行,再去比较,比t表的第一、二行都大,与第三行相等,比第四行小,所以一条结果;s表第四行比t表第一、二、三行都大,与第四行相等,所以无结果。综上所述,最终结果(无序的)为:
21        AAAMP+AAEAAAAC0AAC
23        AAAMP+AAEAAAAC0AAE
23        AAAMP+AAEAAAAC0AAF
23        AAAMP+AAEAAAAC0AAE
23        AAAMP+AAEAAAAC2AAA
23        AAAMP+AAEAAAAC0AAF
23        AAAMP+AAEAAAAC0AAE



补充:如果要指定删除重复(tid)行为4(N)行以上的,保留最小的行,其他的删除。
则在where后增加rowid not in (select min(rowid) from test12 group by tid having count(*) >4) and tid in (select tid from test12 group by tid having count(*) >4);这种方法更加灵活,可以实现的功能更多。

论坛徽章:
5
天蝎座
日期:2014-01-23 12:27:392015亚冠之德黑兰石油
日期:2015-05-14 13:33:042015年亚洲杯之乌兹别克斯坦
日期:2015-03-06 14:10:38天秤座
日期:2014-01-24 15:03:052015亚冠之德黑兰石油
日期:2015-08-27 13:43:58
2 [报告]
发表于 2012-11-14 12:58 |只看该作者
删除方法一不错

论坛徽章:
0
3 [报告]
发表于 2012-12-11 17:29 |只看该作者
select t.*, t.rowid from test12 t;

           TID        TNAME        TTIME        SSEX        ROWID
1        11        12                                      AAAMP+AAEAAAAC0AAA
2        111        1a2                                     AAAMP+AAEAAAAC0AAB
3        21        2121                    2012-11-13 15:30:45                AAAMP+AAEAAAAC0AAC
4        21        2121                    2012-11-13 15:41:18        男        AAAMP+AAEAAAAC0AAD
5        23        2121                    2012-11-13 15:41:31        女        AAAMP+AAEAAAAC0AAE
6        23        2121                    2012-11-13 15:41:48        nv        AAAMP+AAEAAAAC0AAF
7        23        fsf                     2012-11-14 10:09:14        F         AAAMP+AAEAAAAC2AAA
8        23        fsf                     2012-11-14 10:11:50        M         AAAMP+AAEAAAAC2AAB


select min(rowid), t.tid,count(t.tid)
    from test12 t
   group by tid;


           MIN(ROWID)        TID        COUNT(T.TID)
1        AAAMP+AAEAAAAC0AAA        11        1
2        AAAMP+AAEAAAAC0AAC        21        2
3        AAAMP+AAEAAAAC0AAE        23        4
4        AAAMP+AAEAAAAC0AAB        111        1

论坛徽章:
0
4 [报告]
发表于 2012-12-12 10:57 |只看该作者
oracle的rowid和rownumber
http://blog.163.com/jun_ai_ni_13 ... 055201002611117259/
一,什么是伪列RowID?

1,首先是一种数据类型,唯一标识一条记录物理位置的一个id,基于64位编码的18个字符显示。

2,未存储在表中,可以从表中查询,但不支持插入,更新,删除它们的值。

二,RowID的用途

1,在开发中使用频率应该是挺多的,特别在一些update语句中使用更加频繁。所以oracle ERP中大部份的视图都会加入rowid这个字段。

   在一些cursor定义时也少不了加入rowid。但往往我们在开发过程中,由于连接的表很多,再加上程序的复制,有时忽略了rowid对应的是那一个表中rowid,所以有时过程出错,

   往往发上很多时间去查错,最后查出来既然是update时带的rowid并非此表的rowid,所以在发现很多次的错误时,重视rowid起来了,开发中一定要注意rowid的匹配

2,能以做快的方式访问表中的一行。

3,能显示表的行是如何存储的。

4,作为表中唯一标识。

三,RowID的组成

rowid确定了每条记录是在Oracle中的哪一个数据对象,数据文件、块、行上。

ROWID 的格式如下:

   数据对象编号        文件编号        块编号            行编号

   OOOOOO             FFF                BBBBBB    RRR

   由 data_object_id# + rfile# + block# + row#   组成,占用10个bytes的空间,rowid的显示方式:基于64位编码的18个字符显示,其实rowid的存储方式是:10 个字节即80位存储,其中数据对象编号需要32 位,相关文件编号需要10 位,块编号需要22,位行编号需要16 位,由此,我们可以得出:

2bit的object number,每个数据库最多有4G个对象
10bit的file number,每个对象最多有1022个文件(2个文件预留)
22bit的block number,每个文件最多有4M个BLOCK
16bit的row number,每个BLOCK最多有64K个ROWS

   所以每个表空间不能超过1023个 数据文件。

四,RowID的应用

1,查找和删除重复记录

   当试图对库表中的某一列或几列创建唯一索引时,

   系统提示 ORA-01452 :不能创建唯一索引,发现重复记录。

    /*conn scott/tiger

    Create table empa as select * from emp;

    插入重复记录

    insert into empa select * from emp where empno = 7369;

    insert into empa select * from emp where empno = 7839;

    insert into empa select * from emp where empno = 7934;

    */

   查找重复记录的几种方法:

    查找大量重复记录

    select empno from empa group by empno having count(*) >1;

    Select * From empa Where ROWID Not In(Select Min(ROWID) From empa Group By empno);

    查找少量重复记录

    select * from empa a where rowid<>(select max(rowid) from empa where empno=a.empno );

   删除重复记录的几种方法:

    (1).适用于有大量重复记录的情况(列上建有索引的时候,用以下语句效率会很高):

    Delete empa Where empno In (Select empno From empa Group By empno Having Count(*) > 1)

    And ROWID Not In (Select Min(ROWID) From empa Group By empno Having Count(*) > 1);

  

    Delete empa Where ROWID Not In(Select Min(ROWID) From empa Group By empno);

  

    (2).适用于有少量重复记录的情况(注意,对于有大量重复记录的情况,用以下语句效率会很低):

    Delete empa a where rowid<>(select max(rowid) from empa where empno=a.empno );

---------------------------------------------------------------------------------------------------------------------------------------------------

注意:rownum从1开始;

           rownum按照记录插入时的顺序给记录排序,所以有order by的子句时一定要注意啊!

           使用时rownum,order by字段是否为主键有什么影响?

           子查询中rownum rn,而rn用到外查询中到底是怎样的序列?

            若id主键是按照从小到大的顺序插入的,select语句没有group by 和order by的子句时,rownum的顺序和id顺序基本一致。

对于 Oracle 的 rownum 问题,很多资料都说不支持>,>=,=,between...and,只能用以上符号(<、<=、!=),并非说用>,>=,=,between..and 时会提示SQL语法错误,而是经常是查不出一条记录来,还会出现似乎是莫名其妙的结果来,其实您只要理解好了这个 rownum 伪列的意义就不应该感到惊奇,同样是伪列,rownum 与 rowid 可有些不一样,下面以例子说明

假设某个表 t1(c1) 有 20 条记录

如果用 select rownum,c1 from t1 where rownum < 10, 只要是用小于号,查出来的结果很容易地与一般理解在概念上能达成一致,应该不会有任何疑问的。

可如果用 select rownum,c1 from t1 where rownum > 10 (如果写下这样的查询语句,这时候在您的头脑中应该是想得到表中后面10条记录),你就会发现,显示出来的结果要让您失望了,也许您还会怀疑是不谁删了一些记录,然后查看记录数,仍然是 20 条啊?那问题是出在哪呢?

先好好理解 rownum 的意义吧。因为ROWNUM是对结果集加的一个伪列,即先查到结果集之后再加上去的一个列 (强调:先要有结果集)。简单的说 rownum 是对符合条件结果的序列号。它总是从1开始排起的。所以你选出的结果不可能没有1,而有其他大于1的值。所以您没办法期望得到下面的结果集:

11 aaaaaaaa

12 bbbbbbb

13 ccccccc

.................

rownum >10 没有记录,因为第一条不满足去掉的话,第二条的ROWNUM又成了1,所以永远没有满足条件的记录。或者可以这样理解:

ROWNUM是一个序列,是oracle数据库从数据文件或缓冲区中读取数据的顺序。它取得第一条记录则rownum值为1,第二条为2,依次类推。如果你用>,>=,=,between...and这些条件,因为从缓冲区或数据文件中得到的第一条记录的rownum为1,则被删除,接着取下条,可是它的rownum还是1,又被删除,依次类推,便没有了数据。

有了以上从不同方面建立起来的对 rownum 的概念,那我们可以来认识使用 rownum 的几种现像

1. select rownum,c1 from t1 where rownum != 10 为何是返回前9条数据呢?它与 select rownum,c1 from tablename where rownum < 10 返回的结果集是一样的呢?

      因为是在查询到结果集后,显示完第 9 条记录后,之后的记录也都是 != 10,或者 >=10,所以只显示前面9条记录。也可以这样理解,rownum 为9后的记录的 rownum为10,因条件为 !=10,所以去掉,其后记录补上,rownum又是10,也去掉,如果下去也就只会显示前面9条记录了。

2. 为什么 rownum >1 时查不到一条记录,而 rownum >0 或 rownum >=1 却总显示所有的记录

      因为 rownum 是在查询到的结果集后加上去的,它总是从1开始。

3. 为什么 between 1 and 10 或者 between 0 and 10 能查到结果,而用 between 2 and 10 却得不到结果?

       原因同上一样,因为 rownum 总是从 1 开始。从上可以看出,任何时候想把 rownum = 1 这条记录抛弃是不对的,它在结果集中是不可或缺的,少了rownum=1 就像空中楼阁一般不能存在,所以你的 rownum 条件要包含到 1 。

但如果就是想要用 rownum > 10 这种条件的话话就要用嵌套语句,把 rownum 先生成,然后对他进行查询。

select *

from (selet rownum as rn,t1.* from a where ...)

where rn >10
一般代码中对结果集进行分页就是这么干的。

另外:rowid 与 rownum 虽都被称为伪列,但它们的存在方式是不一样的,rowid 可以说是物理存在的,表示记录在表空间中的唯一位置ID,在DB中唯一。只要记录没被搬动过,rowid是不变的。rowid 相对于表来说又像表中的一般列,所以以 rowid 为条件就不会有 rownum那些情况发生。

另外还要注意:rownum不能以任何基表的名称作为前缀。

对于rownum来说它是oracle系统顺序分配为从查询返回的行的编号,返回的第一行分配的是1,第二行是2,依此类推,这个伪字段可以用于限制查询返回的总行数,且rownum不能以任何表的名称作为前缀。

(1) rownum 对于等于某值的查询条件

如果希望找到学生表中第一条学生的信息,可以使用rownum=1作为条件。但是想找到学生表中第二条学生的信息,使用rownum=2结果查不到数据。因为rownum都是从1开始,但是1以上的自然数在rownum做等于判断是时认为都是false条件,所以无法查到rownum = n(n>1的自然数)。

SQL> select rownum,id,name from student where rownum=1;(可以用在限制返回记录条数的地方,保证不出错,如:隐式游标)

SQL> select rownum,id,name from student where rownum =2;

    ROWNUM ID     NAME

(2)rownum对于大于某值的查询条件

   如果想找到从第二行记录以后的记录,当使用rownum>2是查不出记录的,原因是由于rownum是一个总是从1开始的伪列,Oracle 认为rownum> n(n>1的自然数)这种条件依旧不成立,所以查不到记录。

查找到第二行以后的记录可使用以下的子查询方法来解决。注意子查询中的rownum必须要有别名,否则还是不会查出记录来,这是因为rownum不是某个表的列,如果不起别名的话,无法知道rownum是子查询的列还是主查询的列。

SQL>select * from(select rownum no ,id,name from student) where no>2;

        NO ID     NAME

---------- ------ ---------------------------------------------------

         3 200003 李三

         4 200004 赵四

(3)rownum对于小于某值的查询条件

rownum对于rownum<n((n>1的自然数)的条件认为是成立的,所以可以找到记录。

SQL> select rownum,id,name from student where rownum <3;

    ROWNUM ID     NAME

---------- ------ ---------------------------------------------------

        1 200001 张一

        2 200002 王二

查询rownum在某区间的数据,必须使用子查询。例如要查询rownum在第二行到第三行之间的数据,包括第二行和第三行数据,那么我们只能写以下语句,先让它返回小于等于三的记录行,然后在主查询中判断新的rownum的别名列大于等于二的记录行。但是这样的操作会在大数据集中影响速度。

SQL> select * from (select rownum no,id,name from student where rownum<=3 ) where no >=2;

        NO ID     NAME

---------- ------ ---------------------------------------------------

         2 200002 王二

         3 200003 李三

(4)rownum和排序  

Oracle中的rownum的是在取数据的时候产生的序号,所以想对指定排序的数据去指定的rowmun行数据就必须注意了。

SQL> select rownum ,id,name from student order by name;

    ROWNUM ID     NAME

---------- ------ ---------------------------------------------------

         3 200003 李三

         2 200002 王二

         1 200001 张一

         4 200004 赵四

可以看出,rownum并不是按照name列来生成的序号。系统是按照记录插入时的顺序给记录排的号,rowid也是顺序分配的。为了解决这个问题,必须使用子查询;

SQL> select rownum ,id,name from (select * from student order by name);

    ROWNUM ID     NAME

---------- ------ ---------------------------------------------------

         1 200003 李三

         2 200002 王二

         3 200001 张一

         4 200004 赵四

这样就成了按name排序,并且用rownum标出正确序号(有小到大)

笔者在工作中有一上百万条记录的表,在jsp页面中需对该表进行分页显示,便考虑用rownum来作,下面是具体方法(每页显示20条):

“select * from tabname where rownum<20 order by name" 但却发现oracle却不能按自己的意愿来执行,而是先随便取20条记录,然后再order by,后经咨询oracle,说rownum确实就这样,想用的话,只能用子查询来实现先排序,后rownum,方法如下:

"select * from (select * from tabname order by name) where rownum<20",但这样一来,效率会低很多。

后经笔者试验,只需在order by 的字段上加主键或索引即可让oracle先按该字段排序,然后再rownum;方法不变:    “select * from tabname where rownum<20 order by name"

取得某列中第N大的行

select column_name from

(select table_name.*,dense_rank() over (order by column desc) rank from table_name)

where rank = &N;

假如要返回前5条记录:

select * from tablename where rownum<6;(或是rownum <= 5 或是rownum != 6)

假如要返回第5-9条记录:

select * from tablename

where …

and rownum<10

minus

select * from tablename

where …

and rownum<5

order by name

选出结果后用name排序显示结果。(先选再排序)

注意:只能用以上符号(<、<=、!=)。

select * from tablename where rownum != 10;返回的是前9条记录。

不能用:>,>=,=,Between...and。由于rownum是一个总是从1开始的伪列,Oracle 认为这种条件不成立。

另外,这个方法更快:

select * from (

select rownum r,a from yourtable

where rownum <= 20

order by name )

where r > 10

这样取出第11-20条记录!(先选再排序再选)

要先排序再选则须用select嵌套:内层排序外层选。

rownum是随着结果集生成的,一旦生成,就不会变化了;同时,生成的结果是依次递加的,没有1就永远不会有2!

rownum 是在查询集合产生的过程中产生的伪列,并且如果where条件中存在 rownum 条件的话,则:

1: 假如判定条件是常量,则:

只能 rownum = 1, <= 大于1 的自然数, = 大于1 的数是没有结果的;大于一个数也是没有结果的

即 当出现一个 rownum 不满足条件的时候则 查询结束 this is stop key(一个不满足,系统将该记录过滤掉,则下一条记录的rownum还是这个,所以后面的就不再有满足记录,this is stop key);

2: 假如判定值不是常量,则:

若条件是 = var , 则只有当 var 为1 的时候才满足条件,这个时候不存在 stop key ,必须进行full scan ,对每个满足其他where条件的数据进行判定,选出一行后才能去选rownum=2的行……

以下摘自《中国IT实验室》

1.在oracle中实现select top n

   由于oracle不支持select top语句,所以在oracle中经常是用order by跟rownum的组合来实现select top n的查询。

简单地说,实现方法如下所示:

select 列名1...列名n from   

(select 列名1...列名n from 表名 order by 列名1...列名n)

where rownum<=n(抽出记录数)

order by rownum asc

   下面举个例子简单说明一下。

顾客表customer(id,name)有如下数据:

ID NAME

   01 first

   02 Second

   03 third

   04 forth

   05 fifth

   06 sixth

   07 seventh

   08 eighth

   09 ninth

   10 last

   则按NAME的字母顺抽出前三个顾客的SQL语句如下所示:

select * from

   (select * from customer order by name)

   where rownum<=3

   order by rownum asc

   输出结果为:

   ID NAME

   08 eighth

   05 fifth

   01 first
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP