Python：用于元组的Pandas DataFrame

Question

Python：用于元组的Pandas DataFrame

4

这是一种正确的为元组创建DataFrame的方式吗？（假设元组是在代码片段内创建的）

import pandas as pd
import numpy as np
import random

row = ['a','b','c']
col = ['A','B','C','D']

# use numpy for creating a ZEROS matrix
st = np.zeros((len(row),len(col))) 
df2 = pd.DataFrame(st, index=row, columns=col)

# CONVERT each cell to an OBJECT for inserting tuples
for c in col:
    df2[c] = df2[c].astype(object)

print df2

for i in row:
    for j in col:
        df2.set_value(i, j, (i+j, np.round(random.uniform(0, 1), 4)))

print df2

您可以看到，我首先在numpy中创建了一个zeros(3,4)，然后将Pandas中的每个单元格都设置为OBJECT类型，以便我可以插入元组。这样做是正确的方式吗？还是有更好的解决方案可以添加/检索元组到矩阵中？

结果是正确的：

   A  B  C  D
a  0  0  0  0
b  0  0  0  0
c  0  0  0  0


          A             B             C             D
 a  (aA, 0.7134)   (aB, 0.006)  (aC, 0.1948)  (aD, 0.2158)
 b  (bA, 0.2937)  (bB, 0.8083)  (bC, 0.3597)   (bD, 0.324)
 c  (cA, 0.9534)  (cB, 0.9666)  (cC, 0.7489)  (cD, 0.8599)

- Rebin

DataFrames的设计初衷是在每个单元格中存储标量值。为什么您想要存储元组呢？ - ali_m

我正在设计一个HMM/Viterbi类，因此我必须存储创建该概率的先前状态和概率，以便稍后可以检索最佳反向路径。 - Rebin

为什么不将它们存储在单独的列中？ - ali_m

1

元组中的第一个值是否总是等于单元格的行索引加上列索引？ - unutbu

@unutbu 我认为你指向了我正确的方向。拥有两个数据框可能是解决方案，但我该如何跟踪我所说的内容呢？根据列B中0.99作为最高概率，在('S', 0.99)中找到对应的字母：S。 - Rebin

显示剩余7条评论

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- unutbu · Accepted Answer

首先，回答您的字面问题：您可以从列表列表构建数据帧。列表列表中的值本身可以是元组：

import numpy as np
import pandas as pd
np.random.seed(2016)

row = ['a','b','c']
col = ['A','B','C','D']

data = [[(i+j, round(np.random.uniform(0, 1), 4)) for j in col] for i in row]
df = pd.DataFrame(data, index=row, columns=col)
print(df)

收益率

              A             B             C             D
a  (aA, 0.8967)  (aB, 0.7302)  (aC, 0.7833)  (aD, 0.7417)
b  (bA, 0.4621)  (bB, 0.6426)  (bC, 0.2249)  (bD, 0.7085)
c  (cA, 0.7471)  (cB, 0.6251)    (cC, 0.58)  (cD, 0.2426)

话虽如此，需要注意的是在DataFrame中存储元组将导致Python速度循环。为了利用快速的Pandas/NumPy例程，您需要使用本地NumPy数据类型，例如np.float64（而元组则需要“对象”dtype）。

因此，也许更好的解决方案是使用两个单独的DataFrame，一个用于字符串，另一个用于数字：

import numpy as np
import pandas as pd
np.random.seed(2016)

row=['a','b','c']
col=['A','B','C','D']

prevstate = pd.DataFrame([[i+j for j in col] for i in row], index=row, columns=col)
prob = pd.DataFrame(np.random.uniform(0, 1, size=(len(row), len(col))).round(4), 
                    index=row, columns=col)
print(prevstate)
#     A   B   C   D
# a  aA  aB  aC  aD
# b  bA  bB  bC  bD
# c  cA  cB  cC  cD

print(prob)
#         A       B       C       D
# a  0.8967  0.7302  0.7833  0.7417
# b  0.4621  0.6426  0.2249  0.7085
# c  0.7471  0.6251  0.5800  0.2426

要遍历列，在具有最大概率的行中查找并检索相应的prevstate，可以使用.idxmax和.loc：

for col in prob.columns:
    idx = (prob[col].idxmax())
    print('{}: {}'.format(prevstate.loc[idx, col], prob.loc[idx, col]))

产量

aA: 0.8967
aB: 0.7302
aC: 0.7833
aD: 0.7417