在Linux中从Excel数据透视表电子表格中提取数据

Question

在Linux中从Excel数据透视表电子表格中提取数据

4

我有一个基于数据透视表的Excel电子表格，目前会定期更新（每月）并上传到我的服务器上（由一组非常不愿更改输出内容的人生成）。我希望能够编写一个脚本，通过cron作业运行，从透视表中处理和加载原始数据到我的数据库中。

但是，我无法找到访问底层数据的方法，除非手动进入Windows，打开Excel中的文件，双击合计单元格，获取一个包含所有用于填充该单元格的原始数据的新工作表，并将该工作表保存为csv格式，然后使用某种语言（在我的情况下为python）将其加载到我的数据库中。看起来应该有一些可编程的方式来提取底层数据。

我只有Linux机器（在虚拟机中运行Windows/Office），但我希望不涉及Windows的解决方案。我熟悉诸如xls2csv之类的工具（无法访问原始数据），以及使用python-unoconv等工具从python编辑OpenOffice文档。但是，即使手动使用OpenOffice，我也看不到访问底层数据的方法。

编辑：在花了几个小时没有取得进展（在发布此帖子之前），我现在正在尝试通过unoconv将其转换为ODS，并可能可以使用python-odf提取最后一个工作表（名为“DPCache”）。

因此，现在的问题是将ODS中的工作表转换为CSV，这对我来说不应该太难（虽然非常感谢您的帮助）。

- dr jimbob

2个回答

1

你试过xlrd吗？还可以参考python-excel网站上的教程。

很简单：

>>> import xlrd
>>> book = xlrd.open_workbook('pivot_table_demo.xls')
>>> sheet = book.sheet_by_name('Summary')
>>> for row_index in xrange(sheet.nrows):
...     print sheet.row_values(row_index)
...
[u'Sum of sales', u'qtr', '', '', '', '']
[u'person', 1.0, 2.0, 3.0, 4.0, u'Grand Total']
[u'dick', 100.0, 99.0, 95.0, 90.0, 384.0]
[u'harriet', 100.0, 110.0, 121.0, 133.1, 464.1]
[u'tom', 100.0, 101.0, 102.0, 103.0, 406.0]
[u'Grand Total', 300.0, 310.0, 318.0, 326.1, 1254.1]
>>>

- John Machin

2

正确。但是有一个细节：如果数据透视表数据被隐藏（仅在工作表中显示摘要），则可能无法在同一工作表中找到，而是在数据对象中。在这种情况下，可以使用例如Ark（解压缩xlsx）轻松提取xml数据。 - Filippo Mazza

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Pjl · Accepted Answer

我曾经遇到过同样的问题。您可以通过解压缩xlsx文件并阅读/解释xml文件来解决。两个最重要的文件是：

xl/pivotCache/pivotCacheDefinition1.xml
xl/pivotCache/pivotCacheRecords1.xml

第一个文件包含了pivotCacheRecords1.xml中原始数据的关系，您需要通过索引号访问它。我的意思是，对于pivotCacheRecords1.xml中每个带有<x>标签的列，您需要通过<x>标签的索引号获取pivotCacheDefinition1.xml中的数据。为了更好地理解，您需要查看xml文件。

pivotCacheDefinition1.xml

    <?xml version="1.0" encoding="UTF-8"?>
<pivotCacheDefinition xmlns="http://schemas.openxmlformats.org/spreadsheetml/2006/main" xmlns:r="http://schemas.openxmlformats.org/officeDocument/2006/relationships" r:id="rId1" refreshedBy="ADNLatam" refreshedDate="42972.64919178241" createdVersion="5" refreshedVersion="6" recordCount="1923161">
   <cacheSource type="external" connectionId="1" />
   <cacheFields count="26">
      <cacheField name="C - Cadenas" numFmtId="0" sqlType="-9">
         <sharedItems count="3">
            <s v="superA" />
            <s v="superB" />
            <s v="superC" u="1" />
         </sharedItems>
      </cacheField>
      <cacheField name="C - Locales" numFmtId="0" sqlType="-9"><span data-mce-type="bookmark" style="display: inline-block; width: 0px; overflow: hidden; line-height: 0;" class="mce_SELRES_start"></span>
         <sharedItems count="80">
            <s v="Itaugua" />
            <s v="Denis Roa" />
            <s v="Total" />
            <s v="Los Laureles" />
            <s v="CDE" />
            <s v="S6 Fdo." />
            <s v="Central" u="1" />
            <s v="Unicompra" u="1" />
            <s v="San Lorenzo Centro" u="1" />
         </sharedItems>
      </cacheField>
   </cacheFields>
</pivotCacheDefinition>
</xml>

pivotCacheRecords1.xml

<pivotCacheRecords
xmlns="http://schemas.openxmlformats.org/spreadsheetml/2006/main"
xmlns:r="http://schemas.openxmlformats.org/officeDocument/2006/relationships" count="246209">
<r>
    <x v="0"/> 
    <x v="0"/> 
    <x v="0"/> 
    <x v="0"/> 
    <s v="PAÐAL &quot;PAMPERS&quot; BABYSAN REGULAR GDE 9UN"/> #Z - Sku / Descripcion
    <s v="07501006720341"/> 
    <x v="0"/> 
    <x v="0"/> 
    <x v="0"/> 
    <x v="0"/> 
    <x v="0"/> 
    <x v="0"/> 
    <n v="1"/> 
    <n v="11990"/> 
    <n v="2.3199999999999998"/> 
    <n v="10900"/> 
    <n v="11990"/> 
    <n v="1"/> 
    <d v="2012-02-03T00:00:00"/> 
    <x v="0"/> 
    <x v="0"/> 
    <n v="3"/> 
    <n v="6"/> 
    <x v="0"/> 
    <x v="0"/> 
    <x v="0"/> 
    <x v="0"/> 
    <x v="0"/> 
    <x v="0"/> 
</r>

请注意，CacheRecords1标记中的<x>是CacheDefinition1标记中<s>标记的关系。现在，如果您理解了这一点，就不难创建一个字典，在记录的迭代中使用它。

      definitions = '/tmp/scantrack_tmp/xl/pivotCache/pivotCacheDefinition1.xml'
      defdict = {}
      columnas = []
      e = xml.etree.ElementTree.parse(definitions).getroot()
      for fields in e.findall('{http://schemas.openxmlformats.org/spreadsheetml/2006/main}cacheFields'):
          for cidx, field in enumerate(fields.getchildren()):
              columna = field.attrib.get('name')
              defdict[cidx] = []
              columnas.append(columna)
              for value in field.getchildren()[0].getchildren():
                  tagname = value.tag
                  defdict[cidx].append(value.attrib.get('v', 0))

我们最终得到了这个字典。

{
  0: ['supera', 'superb', u'superc'],
  1: ['Terminal',
     'CDE',
     'Brasilia',
     ]
  3: ['PANTENE', 'DOVE']
  ...
}

然后你只需要遍历 CacheRecords1 并在标签为 <x> 时，将列的索引与 defdict 中的键进行匹配。

  dfdata = []


  bdata = '/tmp/scantrack_tmp/xl/pivotCache/pivotCacheRecords1.xml'

  for event, elem in xml.etree.ElementTree.iterparse(bdata, events=('start', 'end')):
    if elem.tag == '{http://schemas.openxmlformats.org/spreadsheetml/2006/main}r' and event == 'start':
       tmpdata = []
       for cidx, valueobj in enumerate(elem.getchildren()):
           tagname = valueobj.tag
           vattrib = valueobj.attrib.get('v')
           rdata = vattrib
           if tagname == '{http://schemas.openxmlformats.org/spreadsheetml/2006/main}x':
                try:
                  rdata = defdict[cidx][int(vattrib)]
                except:
                  logging.error('this it not should happen index cidx = {} vattrib = {} defaultidcts = {} tmpdata for the time = {} xml raw {}'.format(
                                                                                                                                                cidx, vattrib, defdict, tmpdata,
                                                                                                                                                xml.etree.ElementTree.tostring(elem, encoding='utf8', method='xml')
                                                                                                                                                ))
           tmpdata.append(rdata)
       if tmpdata:
           dfdata.append(tmpdata)
       elem.clear()

然后你可以将dfdata放入数据框中。

df = pd.DataFrame(dfdata).

其余的就是历史了，我希望这能对你有所帮助。

愉快的编码！