我知道这个话题在这里之前多次出现过,但是对于我的数据集,所提出的解决方案都没有起作用,因为我的笔记本由于内存问题或存储空间已满而停止计算。
我的表格如下所示,有108万行:
唯一的列是
我的表格如下所示,有108万行:
Col1 |Col2 | Col3 |Col4 |SICComb | NameComb
Case New |3523 | Alexander |6799 |67993523| AlexanderCase New
Case New |3523 | Undisclosed |6799 |67993523| Case NewUndisclosed
Undisclosed|6799 | Case New |3523 |67993523| Case NewUndisclosed
Case New |3523 | Undisclosed |6799 |67993523| Case NewUndisclosed
SmartCard |3674 | NEC |7373 |73733674| NECSmartCard
SmartCard |3674 | Virtual NetComm|7373 |73733674| SmartCardVirtual NetComm
SmartCard |3674 | NEC |7373 |73733674| NECSmartCard
唯一的列是
SICComb
和 NameComb
。我试着加入一个主键:ALTER TABLE dbo.test ADD ID INT IDENTITY(1,1)
但是整数类型的数据在短短几分钟内就占用了超过30GB的存储空间。
从表格中删除重复项的最快且最有效的方法是什么?