我将一个文件上传到了Google电子表格中(以制作一个可公开访问的IPython笔记本,带有数据示例),并且我正在使用原始文件格式,可以将其读入Pandas Dataframe。现在,我使用以下代码读取电子表格,虽然可以正常工作,但是数据仅以字符串的形式呈现,并且我尝试将其转换回Dataframe时没有成功(您可以获取数据)。
import requests
r = requests.get('https://docs.google.com/spreadsheet/ccc?key=0Ak1ecr7i0wotdGJmTURJRnZLYlV3M2daNTRubTdwTXc&output=csv')
data = r.content
数据看起来像这样:(第一行是标题)',City,region,Res_Comm,mkt_type,Quradate,National_exp,Alabama_exp,Sales_exp,Inventory_exp,Price_exp,Credit_exp\n0,Dothan,South_Central-Montgomery-Auburn-Wiregrass-Dothan,Residential,Rural,1/15/2010,2,2,3,2,3,3\n10,Foley,South_Mobile-Baldwin,Residential,Suburban_Urban,1/15/2010,4,4,4,4,4,3\n12,Birmingham,North_Central-Birmingham-Tuscaloosa-Anniston,Commercial,Suburban_Urban,1/15/2010,2,2,3,2,2,3\n
负责将磁盘文件引入的本机熊猫代码如下:
df = pd.io.parsers.read_csv('/home/tom/Dropbox/Projects/annonallanswerswithmaster1012013.csv',index_col=0,parse_dates=['Quradate'])
提供一种“干净”的解决方案会有很多帮助,可以轻松地共享数据集用于Pandas!我尝试了许多替代方案,但都没有成功,我相信我可能又错过了一些明显的东西。
更新说明:新的Google电子表格具有不同的URL模式。只需在上面的示例中使用此URL或下面的答案即可,您应该没问题,这是一个示例:
https://docs.google.com/spreadsheets/d/177_dFZ0i-duGxLiyg6tnwNDKruAYE-_Dd8vAQziipJQ/export?format=csv&id
请看下面@Max Ghenis的解决方案,只使用了pd.read_csv,不需要StringIO或requests...
csv
链接的? - Mugen/edit?ts=5c0e311e#gid=0
结尾,共享链接以/edit?usp=sharing
结尾,两者均不包含csv
,当通过pandas代码请求时,两者都会返回404
。 - Mugen