存储优化--删除重复记录只保留单条,,CIO之家

存储优化--删除重复记录只保留单条

levinlee　　 http://www.cnblogs.com/levinlee/archive/2010/03/18/1688580.html　　MS-SQL　　编辑:德仔　　图片来源:网络

算法思路：先把顺序表La的第一个元素付给顺序表Lb，然后从顺序表La的第2个元素起，每一

算法思路：
先把顺序表La的第一个元素付给顺序表Lb，然后从顺序表La的第2个元素起，每一个元素与顺序表Lb中的每一个元素进行比较，如果不相同，则把该元素附加到顺序表Lb的末尾。

 1         public SeqList<int> Purge(SeqList<int> La)
 2         {
 3             SeqList<int> Lb = new SeqList<int>(La.Maxsize);
 4             //将a表中的第1个数据元素赋给b表
 5              Lb.Append(La[0]);
 6             //依次处理a表中的数据元素
 7             for (int i = 1; i <= La.GetLength() - 1; ++i)
 8             {
 9                 int j = 0;
10                 //查看b表中有无与a表中相同的数据元素
11                 for (j = 0; j <= Lb.GetLength() - 1; ++j)
12                 {
13                     //有相同的数据元素
14                     if (La[i].CompareTo(Lb[j]) == 0)
15                     {
16                         break;
17                     }
18                 }
19                 //没有相同的数据元素，将a表中的数据元素附加到b表的末尾。
20                 if (j > Lb.GetLength() - 1)
21                 {
22                     Lb.Append(La[i]);
23                 }
24                 return Lb;
25             }
26         }

如果理解了这个思路，那么数据库中的处理就好办了。

我们可以做一个临时表来解决问题

1 select distinct * into #Tmp from tableName 
2 drop table tableName 
3 select * into tableName from #Tmp 
4 drop table #Tmp

发生这种重复的原因是表设计不周产生的，增加唯一索引列即可解决。

但是你说了，我不想增加任何字段，但这时候又没有显式的标识列，怎么取出标识列呢？（可以是序号列，GUID，等）

上个问题先不讲，先看看这个问题。

我们分别在三种数据库中看一下处理办法，就是通常我们用的Sqlserver2000,Sqlserver2005,Oracle 10g.

1. SQL Server 2000 构造序号列

方法一：

SELECT 序号= 
   (SELECT COUNT(客户编号) FROM 客户 AS a WHERE a.客户编号<= b.客户编号), 
    客户编号,公司名称 FROM 客户 AS b ORDER BY 1;
方法二：

SELECT 序号= COUNT(*), 
a.客户编号, a.公司名称 FROM 客户 AS a, 客户 AS b 
WHERE a.客户编号>= b.客户编号 GROUP BY a.客户编号, b.公司名称 ORDER BY 序号;

2. SQL Server 2005 构造序号列

方法一：
SELECT RANK() OVER (ORDER BY 客户编号 DESC) AS 序号, 客户编号,公司名称 FROM 客户;
方法二:
WITH TABLE AS 
     (SELECT ROW_NUMBER() OVER (ORDER BY 客户编号 DESC) AS 序号, 客户编号,公司名称 FROM 客户)
SELECT * FROM TABLE
WHERE 序号 BETWEEN 1 AND 3;

3. Oracle 里 rowid 也可看做默认标识列

在Oracle中，每一条记录都有一个rowid，rowid在整个数据库中是唯一的，rowid确定了每条记录是在Oracle中的哪一个数据文件、块、行上。
在重复的记录中，可能所有列的内容都相同，但rowid不会相同，所以只要确定出重复记录中那些具有最大rowid的就可以了，其余全部删除。

select * from test;
select * from test group by id having count(*)>1
select * from test group by id
select distinct * from test
delete from test a where a.rowid!=(select max(rowid) from test b where a.id=b.id);

扯远了，回到原来的问题，除了采用数据结构的思想来处理，因为数据库特有的事务处理，能够把数据缓存在线程池里，这样也相当于临时表的功能，所以，我们还可以用游标来解决删除重复记录的问题。

 1 declare @max int,
 2         @id int 
 3 declare cur_rows cursor local for select id ,count(*) from test group by id having count(*) > 1 
 4 open cur_rows 
 5 fetch cur_rows into @id ,@max 
 6 while @@fetch_status=0 
 7 begin 
 8     select @max = @max -1  
 9     set rowcount @max      --让这个时候的行数等于少了一行的统计数,想想看,为什么  
10     delete from test where id = @id 
11     fetch cur_rows into @id ,@max 
12 end 
13 close cur_rows 
14 set rowcount 0

本文作者:levinlee 来源: http://www.cnblogs.com/levinlee/archive/2010/03/18/1688580.html
CIO之家 www.ciozj.com 微信公众号:imciow

免责声明:本站转载此文章旨在分享信息，不代表对其内容的完全认同。文章来源已尽可能注明，若涉及版权问题，请及时与我们联系，我们将积极配合处理。同时，我们无法对文章内容的真实性、准确性及完整性进行完全保证，对于因文章内容而产生的任何后果，本账号不承担法律责任。转载仅出于传播目的，读者应自行对内容进行核实与判断。请谨慎参考文章信息，一切责任由读者自行承担。