我有一个类似于以下图片的 pd.DataFrame:
我想要将值切割为二进制数字,这里的切割值是 0.85
。 我希望最终的数据框看起来像这样:
我编写的脚本很容易理解,但对于大型数据集来说效率低下。 我相信 Pandas 有一些方法可以处理这些类型的转换。
有人知道使用阈值将浮点数列转换为整数列的有效方法吗?
我极其幼稚的做法如下:
DF_test = pd.DataFrame(np.array([list("abcde"),list("pqrst"),[0.12,0.23,0.93,0.86,0.33]]).T,columns=["c1","c2","value"])
DF_want = pd.DataFrame(np.array([list("abcde"),list("pqrst"),[0,0,1,1,0]]).T,columns=["c1","c2","value"])
threshold = 0.85
#Empty dataframe to append rows
DF_naive = pd.DataFrame()
for i in range(DF_test.shape[0]):
#Get first 2 columns
first2cols = list(DF_test.ix[i][:-1])
#Check if value is greater than threshold
binary_value = [int((bool(float(DF_test.ix[i][-1]) > threshold)))]
#Create series object
SR_row = pd.Series( first2cols + binary_value,name=i)
#Add to empty dataframe container
DF_naive = DF_naive.append(SR_row)
#Relabel columns
DF_naive.columns = DF_test.columns
DF_naive.head()
#the sample DF_want