使用 PHP 从 CSV 文件中删除重复项

3

首先我加载PHPExcel.php

其次,我使用以下代码:

    $location = '/path/file.csv';



    $inputFileType = 'CSV';
    $objReader = PHPExcel_IOFactory::createReader($inputFileType);
    $objPHPExcel = $objReader->load($location);

                $worksheet = $objPHPExcel->getActiveSheet();
                $list = array();
                foreach ($worksheet->getRowIterator() as $row) 
                {
                    $rowIndex = $row->getRowIndex();
                    $cellValue = $worksheet->getCell('A'.$rowIndex)->getValue();
                    array_push($list, $cellValue);       
                }
                $count = count($list);
                for ($rowIndex = $count; $rowIndex != 1; $rowIndex--) 
                {
                    $cellValue = $worksheet->getCell('A'.$rowIndex)->getValue();
                    for ($i = $rowIndex - 2; $i != 0; $i--) 
{
                        if ($list[$i] == $cellValue) 
                        {
                            $worksheet->removeRow($rowIndex);
                            $objWriter = PHPExcel_IOFactory::createWriter($objPHPExcel, 'CSV');
                            $objWriter->save($location);
                            break;  
                        }
                    }
                }

所以,我正在尝试在第一列存在重复值时删除行。但代码无法正常工作。当我首次在Putty中运行它时,我不得不等待很长时间。我中断了该过程,然后再次运行它。然后它可以运行,但是在我的CSV文件中,我得到了错误的结果(重复项为300,但我却得到了-600行)。


似乎逻辑上存在问题,而不是与phpexcel库或csv读写过程相关的技术问题,您能传递csv文件吗?如果可以的话,我可以使用csv文件来调试代码。 - Amit Shah
我的建议是:如果您已经使用了一个数据库,为什么不将数据导入并在那里进行进一步处理呢?相比从CSV到CSV的转换,数据库更适合数据处理。 - Piskvor left the building
1个回答

2

为了读取CSV文件,您不必使用PHPExcel。相反,您可以使用像这样的本地PHP代码:

<?php
// Array which will hold all analyzed lines
$uniqueEntries = array();
$dublicatedEntries = array();
$delimiter = ',';
$file = 'test.csv';

//Open the file
if (($handle = fopen($file, "r")) !== false) {
    // read each line into an array
    while (($data = fgetcsv($handle, 8192, $delimiter)) !== false) {
        // build a "line" from the parsed data
        $line = join($delimiter, $data);

        //If the line content has ben discovered before - save to duplicated and skip the rest..
        if (isset($uniqueEntries[$line])){
            dublicatedEntries[] = $line;
            continue;
        }

        // save the line
        $uniqueEntries[$line] = true;
    }
    fclose($handle);
}

// build the new content-data
$contents = '';
foreach ($uniqueEntries as $line => $bool) $contents .= $line . "\r\n";

// save it to a new file
file_put_contents("test_unique.csv", $contents);
?>

这段代码未经过测试但应该可以工作。它将为您生成一个包含所有唯一条目的 .csv 文件。


我的代码终于可以工作了。可能是PUTTY出了问题。我测试了很多次,用不同的电脑测试,都能正常工作。虽然速度不是很快,但这很正常,因为我的第一个文件有993行。你的解决方案真的很有趣。 - Datacrawler
它不能正常工作。它会复制相同的内容并移动到新文件中。 - Cristal

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接