我有4GB以上的文本文件(csv格式),我想使用C#中的linq处理此文件。
我在加载csv并转换为类之后运行复杂的linq查询?
但文件大小为4GB,尽管应用程序内存是文件大小的两倍。
我该如何处理(linq和新结果)大文件?
谢谢
你可以逐行读取和处理文件,而不是将整个文件加载到内存中。
using (var streamReader = new StreamReader(fileName))
{
string line;
while ((line = streamReader.ReadLine()) != null)
{
// analize line here
// throw it away if it does not match
}
}
[编辑]
如果您需要对文件中的数据运行复杂查询,正确的做法是将数据加载到数据库中,让数据库管理系统处理数据检索和内存管理。
from record in GetRecords("myFile.csv",new []{"Foo","Bar"},new[]{","})
where record.Foo == "Baz"
select new {MyRealBar = int.Parse(record.Bar)
将CSV投影成一系列Clay对象的方法可以创建如下:
private IEnumerable<dynamic> GetRecords(
string filePath,
IEnumerable<string> columnNames,
string[] delimiter){
if (!File.Exists(filePath))
yield break;
var columns = columnNames.ToArray();
dynamic New = new ClayFactory();
using (var streamReader = new StreamReader(filePath)){
var columnLength = columns.Length;
string line;
while ((line = streamReader.ReadLine()) != null){
var record = New.Record();
var fields = line.Split(delimiter, StringSplitOptions.None);
if(fields.Length != columnLength)
throw new InvalidOperationException(
"fields count does not match column count");
for(int i = 0;i<columnLength;i++){
record[columns[i]] = fields[i];
}
yield return record;
}
}
}