使用XSS和事件在Java中读取一个巨大的Excel文件的多个标签页

4

我正在使用来自作者 lchen 的以下代码,该代码基于我提供给方法 'readRow()' 的行数来读取 Excel 文件中的内容。

 import java.io.InputStream;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;

import javax.xml.stream.XMLInputFactory;
import javax.xml.stream.XMLStreamException;
import javax.xml.stream.XMLStreamReader;

import org.apache.poi.openxml4j.opc.OPCPackage;
import org.apache.poi.openxml4j.opc.PackageAccess;
import org.apache.poi.ss.util.CellReference;
import org.apache.poi.xssf.eventusermodel.ReadOnlySharedStringsTable;
import org.apache.poi.xssf.eventusermodel.XSSFReader;
import org.apache.poi.xssf.usermodel.XSSFRichTextString;
import org.xml.sax.InputSource;


public class TestLargeFileRead {
    private int rowNum = 0;
    private OPCPackage opcPkg;
    private ReadOnlySharedStringsTable stringsTable;
    private XMLStreamReader xmlReader;


    public void XExcelFileReader(String excelPath) throws Exception {
        opcPkg = OPCPackage.open(excelPath, PackageAccess.READ);
        this.stringsTable = new ReadOnlySharedStringsTable(opcPkg);

        XSSFReader xssfReader = new XSSFReader(opcPkg);
        XMLInputFactory factory = XMLInputFactory.newInstance();
        InputStream inputStream = xssfReader.getSheetsData().next();
        xmlReader = factory.createXMLStreamReader(inputStream);


        while (xmlReader.hasNext()) {
            xmlReader.next();
            if (xmlReader.isStartElement()) {
                if (xmlReader.getLocalName().equals("sheetData"))
                    break;
            }
        }
    }


    public int rowNum() {
        return rowNum;
    }


    public List<String[]> readRows(int batchSize) throws XMLStreamException {
        String elementName = "row";
        List<String[]> dataRows = new ArrayList<String[]>();
        if (batchSize > 0) {
            while (xmlReader.hasNext()) {
                xmlReader.next();
                if (xmlReader.isStartElement()) {
                    if (xmlReader.getLocalName().equals(elementName)) {
                        rowNum++;
                        dataRows.add(getDataRow());
                        if (dataRows.size() == batchSize)
                            break;
                    }
                }
            }
        }
        return dataRows;
    }

    private String[] getDataRow() throws XMLStreamException {
        List<String> rowValues = new ArrayList<String>();
        while (xmlReader.hasNext()) {
            xmlReader.next();
            if (xmlReader.isStartElement()) {
                if (xmlReader.getLocalName().equals("c")) {
                    CellReference cellReference = new CellReference(
                            xmlReader.getAttributeValue(null, "r"));
                    // Fill in the possible blank cells!
                    while (rowValues.size() < cellReference.getCol()) {
                        rowValues.add("");
                    }
                    String cellType = xmlReader.getAttributeValue(null, "t");
                    rowValues.add(getCellValue(cellType));
                }
            } else if (xmlReader.isEndElement()
                    && xmlReader.getLocalName().equals("row")) {
                break;
            }
        }
        return rowValues.toArray(new String[rowValues.size()]);
    }

    private String getCellValue(String cellType) throws XMLStreamException {
        String value = ""; // by default
        while (xmlReader.hasNext()) {
            xmlReader.next();
            if (xmlReader.isStartElement()) {
                if (xmlReader.getLocalName().equals("v")) {
                    if (cellType != null && cellType.equals("s")) {
                        int idx = Integer.parseInt(xmlReader.getElementText());
                        return new XSSFRichTextString(
                                stringsTable.getEntryAt(idx)).toString();
                    } else {
                        return xmlReader.getElementText();
                    }
                }
            } else if (xmlReader.isEndElement()
                    && xmlReader.getLocalName().equals("c")) {
                break;
            }
        }
        return value;
    }

    @Override
    protected void finalize() throws Throwable {
        if (opcPkg != null)
            opcPkg.close();
        super.finalize();
    }
public static void main(String[] args)  {  
        try {  
            TestLargeFileRead howto = new TestLargeFileRead();  
            howto.XExcelFileReader("D:\\TEMP_CATALOG\\H1.xlsx");  
        } catch (Exception e) {  
            e.printStackTrace();  
        }  


    }
}

但它仅读取第一张工作表的内容,丢弃其他后续工作表。我的需求是读取工作表名称,并根据名称读取该工作表的内容。有谁可以帮助我自定义上述代码以获取工作表名称及其内容吗?

1个回答

4
您需要使用和调整的关键类是 XSSFReader。如果您查看其Javadocs, 您会发现它提供了一个所有工作表InputStreams的迭代器,以及一种获取根Workbook流的方法。
如果您想访问所有工作表,您需要更改这些行:
    InputStream inputStream = xssfReader.getSheetsData().next();
    xmlReader = factory.createXMLStreamReader(inputStream);

变成更像这样的东西:
Iterator<InputStream> sheetsData = xssfReader.getSheetsData();
while (sheetsData.hasNext()) {
    InputStream inputStream = sheetsData.next();
    xmlReader = factory.createXMLStreamReader(inputStream);

    ....
}

如果您也想获取工作表名称,您需要执行类似于Apache POI XLSX基于事件的文本提取器中所示的操作。
XSSFReader.SheetIterator iter = (XSSFReader.SheetIterator) xssfReader.getSheetsData();
while (sheetsData.hasNext()) {
    InputStream inputStream = sheetsData.next();
    String sheetName = iter.getSheetName();

    if (sheetName.equalsIgnoreCase("TheSheetIWant")) {
       xmlReader = factory.createXMLStreamReader(inputStream);

       ....
    }
}

如果您想了解更多关于此事的内容,那么最好的例子之一,易于阅读和跟随的是XSSFEventBasedExcelExtractor,它附带了Apache POI - 阅读该代码并学习!

谢谢Gagravarr的回答!!我会按照您的建议去做,并会更新结果 :) - raj

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接