我需要读取一个大的以空格分隔的文本文件并计算文件中每个代码实例的数量。基本上,这些是运行成千上万次实验的结果。系统会输出一个看起来像这样的文本文件:
A7PS A8PN A6PP23 ...
有数十万条这样的条目,我需要计算每个代码的出现次数。
我想我可以打开一个
StreamReader
,逐行处理,以空格字符为分隔符。查看代码是否已经被遇到,并将该代码的计数加1。然而,考虑到数据的大小,这可能相当天真。有人知道处理这种处理的有效算法吗?
更新:
好吧,大家的共识似乎是我的方法是正确的
我想听听的是 - 哪个更有效率 - StreamReader. TextReader, BinaryReader 什么是最好的结构来存储我的结果字典?HashTable、SortedList、HybridDictionary
如果文件中没有换行符(我还没有收到示例),那么仅仅在空格上分割整个文件是否效率低下?
基本上,我正在努力使它尽可能高效。
再次感谢。