32得票1回答
在由Slurm处理的Bash脚本中注释的处理方式

我在一个集群上使用slurm运行任务,并使用sbatch提交以下脚本:#!/usr/bin/env bash #SBATCH -o slurm.sh.out #SBATCH -p defq #SBATCH --mail-type=ALL #SBATCH --mail-user=my.emai...

11得票14回答
如何处理大量数据

我遇到了以下问题。我需要存储大量的信息(~32 GB),并且能够尽可能快地对其进行操作。我想知道最好的方法是什么(编程语言+操作系统+您认为重要的任何组合)。 我使用的信息结构是一个由双精度浮点数(8字节)组成的4D数组(NxNxNxN)。现在我的“解决方案”是将4D数组切片为2D数组,并将...

7得票1回答
无法打开连接 - 使用snow的R中的HPC技术

我正在尝试使用snow在R中运行并行作业。我曾经在旧版本的R和snow上运行过非常相似的作业,没有遇到任何问题。但是由于R包依赖性的限制,我无法回滚版本。 发生了什么:我的作业在parRapply步骤终止,换句话说,节点第一次需要做除报告Sys.info()之外的任何事情。错误消息如下: ...

9得票10回答
MPI还是Sockets?

我正在处理一些数据的松散耦合集群。网络代码和处理代码已经就位,但我们正在评估不同的方法。现在,我们应该关注的是性能问题上的I/O瓶颈,并且我们正在尝试减少这个瓶颈。显然,像Infiniband这样更快的交换机会很棒,但我们负担不起只是扔掉现有设备并购买新设备的奢侈品。 我的问题是这样的。所有...

15得票4回答
一个程序在什么情况下会受到内存带宽的限制?

我想知道我正在使用的需要大量内存的程序是否受到内存带宽的限制。 您认为这种情况何时会发生?在实际情况下,您是否遇到过这种情况? 我找到了几篇讨论这个问题的文章,包括: http://www.cs.virginia.edu/~mccalpin/papers/bandwidth/node1...

13得票1回答
HDF5中用于Python/pandas快速读写的推荐压缩格式是什么?

我已经多次阅读到,在HDF5中启用压缩可以提高读写性能。我想知道在以下情况下,什么样的理想设置可以实现良好的读写性能: data_df.to_hdf(..., format='fixed', complib=..., complevel=..., chunksize=...) 我已经在使用fi...

14得票1回答
如何使用点积达到最佳CPU性能?

问题 我一直在研究HPC,尤其是使用矩阵乘法作为我的项目(请参见我个人资料中的其他帖子)。我在这些方面取得了良好的性能,但还不够好。我正在退后一步,看看我能用点积计算做多好。 点积与矩阵乘法 点积更简单,可以让我测试HPC概念,而不必处理打包和其他相关问题。缓存块仍然是一个问题,这就构成...

34得票2回答
拥有支持InfiniBand的Windows Azure A8节点,如何在其中一个节点发送N字节并在另一个节点上接收?

我喜欢InfiniBand承诺的40Gbit/s网络。我的需求不适用于具有一个核心节点+从节点的MPI模型,如果可能的话,我宁愿根本不使用MPI。我需要简单的connect/send/receive/close(或其异步版本)API。然而,阅读MS Azure文档或Microsoft HPC ...

16得票2回答
GCC SSE 代码优化

这篇帖子与我前几天发布的另一篇紧密相关。这次,我编写了一个简单的代码,它只是将一对元素的数组相加,将结果乘以另一个数组中的值,并将其存储在第四个数组中,所有变量都是浮点双精度类型。 我制作了两个版本的代码:一个使用SSE指令,调用另一个,并且另一个没有使用SSE指令。然后,我使用gcc和-O...

10得票2回答
使用多个互斥锁

我有一个大的树形结构,上面有几个线程同时工作。理想情况下,我希望每个单元格都有一个独立的互斥锁。 我查看了 bits/pthreadtypes.h 中 pthread_mutex_t 的定义,它非常简短,因此在我的情况下内存使用应该不是问题。 然而,如果为仅有 8 个线程使用许多(比如几千...