我正在处理CSV文件,有一段代码可以计算文档之间的相似度。第一个帖子提供了代码以及数据和输出的详细信息:1。
data.csv 文件内容如下:
输出结果为:
data.csv 文件内容如下:
idx messages
112 I have a car and it is blue
114 I have a bike and it is red
115 I don't have any car
117 I don't have any bike
输出结果为:
id 112 114 115 117
id
112 100.0 78.0 51.0 50.0
114 78.0 100.0 47.0 54.0
115 51.0 47.0 100.0 83.0
117 50.0 54.0 83.0 100.0
现在我想计算相似矩阵的下三角均值和标准差(因为上下两个三角是相似的),不包括单位数据(100.0)。
我尝试使用Panda内置的平均值和标准差:
df_std = df.std()
df_Mean = df.mean()
但是这种方法考虑了输出中的所有数据,如身份和上三角。
我想知道是否有任何方法可以按照我提到的方式计算平均值和标准差。