如何在tabula-py中生成页面范围？

Question

如何在tabula-py中生成页面范围？

3

在Python 3中，我有一个名为“Ativos_Fevereiro_2018_servidores.pdf”的PDF文件，它有6,041页。我在一台Ubuntu机器上。文件在这里：https://drive.google.com/file/d/1P8kF0gUOVls6sOGed4R0C2PlVF5RFtU6/view?usp=sharing 每页的顶部都有两行文字，并在下面有一个带标题和两列的表格。每个表格有36行，最后一页的行数会少一些。

每页结束时，在表格之后还有一行文字。

我想从这个PDF中创建CSV，只考虑页面中的表格。忽略表格前后的文字。

为避免出现Java内存错误，我想将文件分成300页的组。我在tabula-py中完成了这个操作。

import tabula
import pandas as pd


dfs = []

for i in range(1,6041, 300):
    if i != 1:
        i = i + 1

    i2 = i + 300

    if i2 > 6041:
        i2 = 6041

    print(i)
    print(i2)

    try:
        df = tabula.read_pdf("Ativos_Fevereiro_2018.pdf", encoding='latin-1', spreadsheet=True, pages='i-i2', header=0)
        dfs.append(df)
        print('Page ', len(df), ' parsed.')
    except:
        print('Error on page: ', i)

output = pd.concat(dfs)
output.to_csv('servidores_rj_ativos_fev_18.csv', encoding='utf-8', index=False)

但是我制定的范围是错误的：

1
301
Error: Syntax error in page range specification
Error on page:  1
302
602
...
Error: Syntax error in page range specification
Error on page:  5702
6002
6041
Error: Syntax error in page range specification
Error on page:  6002
Traceback (most recent call last):
  File "roboseguranca_pdftocsv.py", line 26, in <module>
    output = pd.concat(dfs)
  File "/home/reinaldo/Documentos/Code/intercept/seguranca/lib/python3.6/site-packages/pandas/core/reshape/concat.py", line 212, in concat
    copy=copy)
  File "/home/reinaldo/Documentos/Code/intercept/seguranca/lib/python3.6/site-packages/pandas/core/reshape/concat.py", line 245, in __init__
    raise ValueError('No objects to concatenate')
ValueError: No objects to concatenate

请问，我如何纠正范围错误？

- Reinaldo Chaves

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- ilja · Accepted Answer

为了使范围起作用，您需要将其作为字符串传递，因此请将整数转换为字符串，并使用“ - ”将它们组合起来：

pages=(str(i)+'-'+str(i2))

其他一些事情：

在tabula.read_pdf语句中也使用encoding='utf-8'
如果您想看到抛出的错误，请扩展except语句，例如：

except Exception as e: print('第', i, '-', 'i2范围内的错误：', e)

如果仍然是Java错误（tabula使用java进行解析），则可以添加一些java_options='something...'（请参见https://github.com/tabulapdf/tabula-java/blob/master/README.md）
我在python 2.7 / Java 1.8（64GB RAM机器上）运行了所有6041页而没有任何问题