Node.js:从CSV文件中删除特定列

4
我有一个包含数百万条记录的CSV文件,如何删除以_开头的列并生成结果CSV?
为了简单起见,考虑我有以下CSV:
Sr.No Col1 Col2 _Col3   Col4 _Col5
1     txt  png  676766  win  8787
2     jpg  pdf  565657  lin  8787
3     pdf  jpg  786786  lin  9898

I would want the output to be


Sr.No Col1 Col2 Col4
1     txt  png  win 
2     jpg  pdf  lin 
3     pdf  jpg  lin

我需要阅读整个文件才能达到这个目的吗?还是有更好的方法可以实现这个目标。

const csv = require('csv-parser');
const fs = require('fs');

fs.createReadStream('data.csv')
  .pipe(csv())
  .on('data', (row) => {
    // generate a new csv with removing specific column
  })
  .on('end', () => {
    console.log('CSV file successfully processed');
  });

对于如何实现这一点,任何帮助都将是有帮助的。

谢谢。

4个回答

3

对于任何看到这篇文章的人

我能够使用fscsv模块下面的代码转换csv文件。

await fs.createReadStream(m.path)
      .pipe(csv.parse({delimiter: '\t', columns: true}))
      .pipe(csv.transform((input) => {
        delete input['_Col3'];
        console.log(input);
        return input;
      }))
      .pipe(csv.stringify({header: true}))
      .pipe(fs.createWriteStream(transformedPath))
      .on('finish', () => {
        console.log('finish....');
      }).on('error', () => {
        console.log('error.....');
      });

来源:https://gist.github.com/donmccurdy/6cbcd8cee74301f92b4400b376efda1d

这是一个JavaScript模块,用于计算两个向量之间的角度。它参考了Unity引擎的方法,并将结果转换为度数。该模块使用了Math库的acos函数,但需要确保输入向量已被标准化(长度为1),否则结果将不正确。如果您希望在使用此算法时避免除以零错误,可以添加一些错误检查。


1

使用csv库尝试一下这个

const csv = require('csv');
const fs = require('fs');

const csvString=`col1,col2
               value1,value2`

csv.parse(csvString, {columns: true})
   .pipe(csv.transform(({col1,col2}) => ({col1}))) // remove col2
   .pipe(csv.stringify({header:true}))
   .pipe(fs.createWriteStream('./file.csv'))

0
使用此函数,我成功地从CSV中删除了一列。
removeCol(csv, col) {
   let lines = csv.split("\n");
   let headers = lines[0].split(",");
   let colNameToRemove = headers.find(h=> h.trim() === col);
   let index = headers.indexOf(colNameToRemove);
   let newLines = [];
   lines.map((line)=>{
       let fields = line.split(",");
       fields.splice(index, 1)
       newLines.push(fields)
   })
   let arrData = '';
   for (let index = 0; index < newLines.length; index++) {
       const element = newLines[index];
       arrData += element.join(',') + '\n'
   }
   return arrData;
} 

0
实际上,您可以使用两个npm包来处理它。

https://www.npmjs.com/package/csvtojson 将您的库转换为JSON格式

然后使用这个 https://www.npmjs.com/package/json2csv

与第二个库一起。如果您知道确切的字段,您可以传递参数以具体选择所需的字段。

const { Parser } = require('json2csv');
 
const fields = ['field1', 'field2', 'field3'];
const opts = { fields };
 
try {
  const parser = new Parser(opts);
  const csv = parser.parse(myData);
  console.log(csv);
} catch (err) {
  console.error(err);
}

或者您可以手动修改 JSON 对象以删除那些列


我的文件可能非常大,达到500MB或更多。看起来你的解决方案正在将整个数据加载到内存中,这可能导致程序崩溃,请纠正我如果我错了。 - opensource-developer
如果将500MB文件加载到内存中,根据您的资源可用性,可能会导致崩溃。但是这两个库都提供了使用流的机制,可以在其文档中找到相关信息。在那里,您可以使用流方法。https://www.npmjs.com/package/csvtojson#use-stream https://www.npmjs.com/package/json2csv#json2csv-async-parser-streaming-api - Dulara Malindu

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接