datangyuan 发表于 2008-06-15 13:10

请教高手,两个表就都很庞大,但要对两个表进行联合查询

请教高手,两个表就都很庞大,(任何一表都有上千万条记录),
但要对两个表进行联合查询,并删除其中一表中另一表不存在的记录,
有什么好的建议,谢谢!

herecomes 发表于 2008-06-15 20:50

用临时表吧.

zg_ljc 发表于 2008-06-15 21:09

where条件用到索引。考虑exists

wenlq 发表于 2008-06-16 08:59

tab1 中删除tab2中不存在的记录; tab1 tab2 按code字段关联。
一般会想到
delete from tab1 where code notin( select code from tab2 ) ;
按ifaqnot in / not exists 会比较慢的。
用以下方法变换一下

selectcode,0 flag from tab1 into temp ttwith no log;
UPDATEtt
       SET flag = 1
   WHERE code IN ( SELECT code
                     FROM tab2
                      WHERE tab2.code = tt.code );
delete from tab1 where code in ( select code from tt where flag = 0 );

楼主测测 第2个能快多少。

blackuhlan 发表于 2008-06-16 23:51

step 1: 联表查询导出要删除表需保留的数据。(这个不用详细说了吧)
step 2: drop 该表。(这个还是不用说吧)
step 3: 将数据库的日志关掉。(这个还是不用说了吧),非要说就是ontape ...(不好意思记不得参数)
step 4:重建该表,导入数据。 (这个也不用说了吧)
step 5:将日志恢复。(与第三步相反)
当你要删除的数据达到本表数据的1/3以上时,这个办法非常有效。否则就采用4楼的办法。
不过用那种办法都要期望不要出错,否则明天你就比较珍贵了。

blackuhlan 发表于 2008-06-16 23:56

还有个加速的办法就是采用多进程导入导出数据,比如说一次10个,当然你的系统如果足够好,多多益善
i = 1
dbaccess dbname<<!
unload to a$i.txt select a.* from a,b where a.rowid %10 =$i and a.field = b.field;
!
记住shell命令是可以后台运行的,
当然要判断数据是否导出完成,简单的办法就是用 ps -ef 检查导出的进程数是否为0

[ 本帖最后由 blackuhlan 于 2008-6-17 00:02 编辑 ]

celavi 发表于 2008-06-20 00:39

DB2有一个方法可以快速删除表数据:import from /dev/null of del replace into <table-name>
Informix有类似的方法吗?

liaosnet 发表于 2008-06-20 09:33

回复 #7 celavi 的帖子

在10.0中有个truncate 可以做的..只删除表数据,保留表结构 ..

datangyuan 发表于 2008-06-28 12:52

谢谢各位的指点,表太大,临时表也不行,后来写程序执行的
将两个包按照帐号前几位分割成上百个文件,然后程序处理的
谢谢各位提出的好意见哈
页: [1]
查看完整版本: 请教高手,两个表就都很庞大,但要对两个表进行联合查询