我有一个数据密集型问题,需要大量的数据处理和操作,我在这里发布出来,看看是否有人有想法如何解决它。
简单来说,我有很多表格,可以联合起来给我提供牙医价格列表,以及每个牙医对于某项手术收费的金额。
因此,我们有多个类似下面这样的表格。
Dentist | Procedure1 | Procedure2 | Procedure3 | .........| Procedure?
John | 500 | 342 | 434 | .........| 843
Dave | 343 | 434 | 322 | NULLs....|
Mary | 500 | 342 | 434 | .........| 843
Linda | 500 | 342 | Null | .........| 843
牙医可以有不同数量的程序和每个程序的不同定价。但是有很多牙医具有相同数量的程序和相应的相同价格。在内部,我们为每个所谓的费用清单创建一个唯一的ID。
例如,John将是001,Dave将是002,但Mary将是费用001,Linda将是003。如果我只需要处理这些数据一次,那么情况就不会太糟糕,但是这些费用列表以平面文件(csv)的形式出现,我基本上必须将它们DTS到SQL服务器中才能使用,并且它们每月都会出现。每个牙医的定价可能会从一个月变化到另一个月,这将使它们在内部具有不同的唯一ID。
有人能够解释一下如何最好地解决这个问题,以便在每月处理时最有效,而无需进行大量的数据操作吗?
以下是需要回答的问题:
1.查找费用清单的重复项的最佳方法是什么? 2.如何跟踪更新牙医的费用清单,以防他们在下个月更改费率?如果Mary决定为procedure2收取不同的费用,那么她在内部将有一个不同的唯一ID。如何在每月基础上跟踪这一点,而无需删除所有内容并重新插入? 3.我正在处理几百万个费用清单,其中一些基于邮政编码具有标准规则,而其他一些则只是唯一的费用清单,这里的方法是什么? 4.我可以编写某种临时的.NET程序来处理它,但是这是大量的数据,直接在SQL服务器中工作对我来说会更容易。