Series
和单列DataFrame
?换句话说,Series
类的存在有什么原因?我主要使用具有日期时间索引的时间序列,也许这有助于设置上下文。
引用Pandas文档的话:
pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
二维大小可变、可能异构的带标签轴(行和列)的表格数据结构。算术运算在行和列标签上对齐。可以被视为Series对象的类似字典的容器。主要的pandas数据结构。
因此,Series是DataFrame的单个列的数据结构,不仅在概念上如此,而且从字面上来说,即DataFrame
中的数据实际上存储在内存中作为一组Series
。
类比地说:我们需要列表和矩阵,因为矩阵是由列表构建的。单行矩阵虽然在功能上等同于列表,但如果没有它们所组成的列表,就无法存在。
他们两者的API非常相似,但你会发现DataFrame方法总是考虑到你可能有多列数据。当然,你可以随时将另一个Series(或等效对象)添加到DataFrame中,而将Series添加到另一个Series则需要创建DataFrame。DataFrame
实际内部数据结构的任何信息。事实上,它当前存储为一个BlockManager
(这是一些实现细节,你不应该依赖它)。 - Tim Diels来自Pandas文档http://pandas.pydata.org/pandas-docs/stable/dsintro.html Series是一维带标签的数组,能够保存任何数据类型。 读取Pandas Series格式的数据:
import pandas as pd
ds = pd.Series(data, index=index)
DataFrame是一种2维带标签的数据结构,其中每个列可能具有不同的数据类型。
import pandas as pd
df = pd.DataFrame(data, index=index)
,country,popuplation,area,capital
BR,Brazil,10210,12015,Brasile
RU,Russia,1025,457,Moscow
IN,India,10458,457787,New Delhi
要将上述数据读取为系列(Series)和数据框(DataFrame):
import pandas as pd
file_data = pd.read_csv("file_path", index_col=0)
d = pd.Series(file_data.country, index=['BR','RU','IN'] or index = file_data.index)
输出:
>>> d
BR Brazil
RU Russia
IN India
df = pd.DataFrame(file_data.area, index=['BR','RU','IN'] or index = file_data.index )
输出:
>>> df
area
BR 12015
RU 457
IN 457787
file_data
改为 brics
,在 csv 中添加一行美国数据,并将 ['BR'....'US']
改为 brics.index
。也许需要修正 pupuplation
拼写错误。 - RolfBlySeries是一种一维标记数组,能够容纳任何数据类型(整数、字符串、浮点数、Python对象等)。轴标签被统称为索引。创建Series的基本方法是调用:
s = pd.Series(data, index=index)
DataFrame是一个二维的带有标签的数据结构,它的列可能包含不同类型的数据。你可以将它看作是电子表格或SQL表,或者是一组Series对象的字典。
d = {'one' : pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
two' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
Series是一个一维对象,可以存储任何数据类型,例如整数、浮点数和字符串,如下所示:
import pandas as pd
x = pd.Series([A,B,C])
0 A
1 B
2 C
Series 的第一列称为索引,即 0、1、2,而第二列是实际数据,即 A、B、C。
DataFrames 是一个二维对象,可以容纳 Series、列表、字典等。
df=pd.DataFrame(rd(5,4),['A','B','C','D','E'],['W','X','Y','Z'])
DataFrame
通常被描述为一个二维带标签的数据结构,其中列可能具有不同的类型。您可以将其视为电子表格或SQL表。
由于这个定义,我们可以像在Excel电子表格中一样将数据看作单元格,其中行具有行号,列具有列标题。由于这种简单的视图,底层数据结构可能会有些令人惊讶。
DataFrame
实际上由轴标签(行和列标签)的Index
对象和列数据的Series
对象组成。
Series
对象为每个列数据提供了封装(它们保存在一维numpy.ndarray
中),包括行标签和列标签。
因此,单列DataFrame
将具有一个基础Series
对象,用于列数据。
请参见DataFrame数据结构,其中包含一个简单示例和底层数据结构的可视化表示。
import pandas as pd
cars = pd.read_csv('cars.csv', index_col = 0)
将drives_right列作为Series打印出来:
print(cars.loc[:,"drives_right"])
US True
AUS False
JAP False
IN False
RU True
MOR True
EG True
Name: drives_right, dtype: bool
单括号版本返回一个Pandas Series,双括号版本返回一个Pandas DataFrame。
将drives_right列作为DataFrame打印出来。
print(cars.loc[:,["drives_right"]])
drives_right
US True
AUS False
JAP False
IN False
RU True
MOR True
EG True
DataFrame
看作是一组Series
的dict
(尽管当前实现不是这样),但仍不清楚为什么会返回一个Series
对象,而不是一个DataFrame
(也就是概念上只有一个条目的dict
)。 - Alex