我是一名生物信息学研究员,我们在 mRNA 上映射小 RNA。我们有每个 mRNA 上蛋白质的映射坐标,并计算蛋白质结合 mRNA 的位置与被小 RNA 结合的位点之间的相对距离。
我获得了以下数据集:
dist eff
-69 3
-68 2
-67 1
-66 1
-60 1
-59 1
-58 1
-57 2
-56 1
-55 1
-54 1
-52 1
-50 2
-48 3
-47 1
-46 3
-45 1
-43 1
0 1
1 2
2 12
3 18
4 18
5 13
6 9
7 7
8 5
9 3
10 1
13 2
14 3
15 2
16 2
17 2
18 2
19 2
20 2
21 3
22 1
24 1
25 1
26 1
28 2
31 1
38 1
40 2
当我绘制数据时,我得到了三张图片:一张在3-4左右,另一张在20左右,最后一张在-50左右。
我尝试了三次样条插值,但是对我的数据效果不好。
我的想法是使用高斯曲线的总和进行曲线拟合。例如,在我的情况下,估计点5、20和-50处的三个高斯曲线。
如何做到这一点?
我看了一下scipy.optimize.curve_fit(),但是如何在精确间隔上拟合曲线呢? 如何添加曲线以得到单一曲线?
K-means
聚类对你是否适用? - Geoff