使用Python绘制pandas数据框并进行多进程处理

3

我有一个pandas数据框,希望在一个使用多进程的函数中绘制它的切片。虽然当我单独调用"process_expression"函数时它可以工作,但是当我使用"multiprocessing"选项时它并没有生成任何图形。

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import scipy
import seaborn as sns
import sys
from multiprocessing import Pool
import os
os.system("taskset -p 0xff %d" % os.getpid())


pool = Pool()  
gn = pool.map(process_expression, gene_ids)
pool.close()
pool.join()

def process_expression(gn_name, df_gn=df_coding):
    df_part = df_gn.loc[df_gn['Gene_id'] == gn_name]
    df_part = df_part.drop('Gene_id', 1)
    df_part = df_part.drop('Transcript_biotype', 1)

    COUNT100 = df_part[df_part >100 ].count()
    COUNT10 = (df_part[df_part >10 ].count()) - COUNT100
    COUNT1 = (df_part[df_part >1].count())- COUNT100 - COUNT10 
    COUNT0 = (df_part[df_part >0].count())- COUNT100-COUNT10- COUNT1
    result = pd.concat([COUNT0,COUNT1,COUNT10,COUNT100], axis=1)
    result.columns = [ '0 TO 1', '1 TO 10','10 TO 100', '>100']
    result.plot( kind='bar', figsize=(50, 20), fontsize=7, stacked=True) 
    plt.savefig('./expression_levels/all_genes/'+gn_name+'.png')#,bbox_inches='tight')  
    plt.close() 

df_coding表类似于以下内容(实际上有更多列,我已经删除了一些):

 Isoform_name,heart,heart.1,lung.3,Gene_id,Transcript_biotype
 ENST00000296782,0.14546900000000001,0.161245,0.09479889999999999,ENSG00000164327,protein_coding
 ENST00000357387,6.53902,5.86969,7.057689999999999,ENSG00000164327,protein_coding
 ENST00000514735,0.0,0.0,0.0,ENSG00000164327,protein_coding

输入的数据框 df_coding 是一个带有 Gene_id 列的数据框。在这一列中,我有一个 gn_name 的列表。我想要做的是每次只取出数据框中 Gene_id 列中包含 gn_name[i] 名称的部分,并基于此数据框绘制条形图。
例如,如果我调用 'process_expression('ENSG00000164327')',这是一个特定的 gn_name,输出结果将类似于下面这个图片: This is the barplot of the dataframe if the gn_name is ENSG00000164327 我做错了什么?当我使用 multiprocessing 运行时,我知道处理会在绘图命令处停止。

抱歉,我指的是“结果”,也就是我创建的数据框。我已经编辑了代码。 - fgypas
1
你能提供更多的上下文吗?导入代码行和一个小的数据子集以进行评估将会很有帮助(足以演示非多线程版本的功能)。此外,非多线程情况下的工作代码也会很有帮助。 - dhj
1
我再次更新了初始代码。现在清楚了吗? - fgypas
1个回答

2
问题出在多进程和matplotlib之间。使用多进程时,每个进程都会创建一个全新的上下文。新的上下文无法成功初始化,因为它已经在父进程中初始化过了。
如果您正在尝试解决性能问题,那么您可能走上了正确的轨道。然而,将绘图返回到父进程正确初始化的上下文中需要您深入了解底层matplotlib的结构。这里是一个设置数据管道返回到原始应用程序的示例。如果您在绘图之前对数据进行了大量处理,那么这确实只有帮助作用。但是,看起来这不是您在这里要做的。
如果您想获得类似堆叠/叠加结果的视觉效果,那么您可能需要重复绘图函数或修改数据结构以更好地表示您想要可视化的内容。
所以,您要解决什么问题?性能问题还是可视化问题?如果是可视化问题,那么您不应该使用多进程

感谢您详细的回答。我的主要问题是性能。我正在创建许多图表,希望使其更快。问题在于,我相当确定问题出在我使用pandas的plot包装器上,这就是导致问题的原因。因此,我想知道问题是pandas的matplotlib包装器还是matplotlib本身。 - fgypas
matplotlib很灵活,易用,但并不是特别快。在i3上运行时,更新96个图表的面板需要几秒钟时间。您的数据集中有多少个图表?多进程是您提高性能的唯一途径(当处理大量数据点进行可视化时,这可能是瓶颈问题)。链接的示例代码可能没有帮助,因为仍然是一个线程处理所有处理。您所有的数据是否都需要在同一张图中绘制?是否都需要交互式显示? - dhj

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接