从S3读取Excel文件到Pandas DataFrame

Question

从S3读取Excel文件到Pandas DataFrame

8

我设置了一个SNS通知，当S3存储桶上传.xlsx文件时，会触发一个Lambda函数。

该Lambda函数将读取.xlsx文件到Pandas DataFrame中。

import os 
import pandas as pd
import json
import xlrd
import boto3

def main(event, context):
    message = event['Records'][0]['Sns']['Message']
    parsed_message = json.loads(message)
    src_bucket = parsed_message['Records'][0]['s3']['bucket']['name']
    filepath = parsed_message['Records'][0]['s3']['object']['key']

    s3 = boto3.resource('s3')
    s3_client = boto3.client('s3')

    obj = s3_client.get_object(Bucket=src_bucket, Key=filepath)
    print(obj['Body'])

    df = pd.read_excel(obj, header=2)
    print(df.head(2))

我遇到了以下错误：

Invalid file path or buffer object type: <type 'dict'>: ValueError
Traceback (most recent call last):
File "/var/task/handler.py", line 26, in main
df = pd.read_excel(obj, header=2)
File "/var/task/pandas/util/_decorators.py", line 178, in wrapper
return func(*args, **kwargs)
File "/var/task/pandas/util/_decorators.py", line 178, in wrapper
return func(*args, **kwargs)
File "/var/task/pandas/io/excel.py", line 307, in read_excel
io = ExcelFile(io, engine=engine)
File "/var/task/pandas/io/excel.py", line 376, in __init__
io, _, _, _ = get_filepath_or_buffer(self._io)
File "/var/task/pandas/io/common.py", line 218, in get_filepath_or_buffer
raise ValueError(msg.format(_type=type(filepath_or_buffer)))
ValueError: Invalid file path or buffer object type: <type 'dict'>

我该如何解决这个问题？

- Raj

4个回答

2

尝试使用pd.read_excel(obj['Body'].read())。

- Ritman Cronestar

2

Pandas现在支持s3 URL作为文件路径，因此它可以直接从s3读取excel文件，而无需先下载它。请参见此处的CSV示例-https://dev59.com/AloU5IYBdhLWcg3wM1C9#51777553

- LiorH

0

如果obj是一个字典，你可以尝试使用以下方法：

df = pd.DataFrame.from_dict(obj)

如果需要更改参数，请点击这里查看文档。

- ycx

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Tarik Elkalai · Accepted Answer

这是很正常的！obj是一个字典，你试过了吗？

df = pd.read_excel(obj['body'], header=2)