194得票16回答
类型错误: 描述符不能直接创建

我尝试安装Ray,但出现错误:TypeError: Descriptors cannot not be created directly. If this call came from a _pb2.py file, your generated code is out of date and...

30得票2回答
雷如何向工作节点共享数据?

有许多简单的教程,以及Stack Overflow上的问题和答案声称Ray会以某种方式与worker共享数据,但这些都没有详细说明在哪个操作系统上会共享哪些内容。 例如,在这个SO答案中:https://stackoverflow.com/a/56287012/1382437 ,一个np数组被...

18得票2回答
如何修复Ray不断增长的内存使用量?

我开始使用ray进行分布式机器学习,但是我已经遇到了一些问题。内存使用量不断增长直到程序崩溃。虽然我不断清除列表,但内存仍在泄漏。有任何想法为什么会这样吗? 我的规格: 操作系统和分配情况:Ubuntu 16.04 Ray安装来源:二进制 Ray版本:0.6.5 Python版本:3.6.8...

18得票3回答
无法安装 RAY。

RISE实验室的Ray库(https://rise.cs.berkeley.edu/blog/pandas-on-ray/) 我正在使用64位的Windows 10专业版,并从Anaconda提示符中运行这些脚本。 我尝试了两种方法 pip install ray 和pip3 inst...

16得票3回答
如何在Ray中使用Python日志记录?

我在主函数/进程中使用logging模块,效果不错,但是似乎在Actor进程/子进程中无法工作。如何使其正常工作?在下面的代码示例中,logging.info在主进程中工作,但在工作进程中失败了。谢谢。import logging import ray @ray.remote class W...

12得票3回答
将Ray RLlib训练的Logdir更改为非~/ray_results目录

我正在使用Ray和RLlib在Ubuntu系统上训练强化学习代理。通过将Tensorboard指向~/ray_results,可以监控所有运行的日志文件存储位置,以便监控训练进度。未使用Ray Tune。例如,在启动新的Ray/RLlib训练运行时,会在以下位置创建一个新目录:~/ray_re...

11得票1回答
射线中的 `num_cpus` 是否用于实际分配CPU?

使用ray框架时,可以选择所需的CPU数量来完成任务,在此处进行了解释。点击此处可以查看详细说明。 示例:@ray.remote(num_cpus=4) def f(): return 1 然而,目前尚不清楚是否会有实际的CPU分配: 该函数将使用4个CPU(例如使用CPU亲和力...

9得票3回答
什么是ray::IDLE,为什么有些工作进程会耗尽内存?

我正在EC2上运行Ray。我在c5.large实例上运行具有约4G内存的工作者。 当我运行许多作业时,我会看到这些错误消息: File "python/ray/_raylet.pyx", line 631, in ray._raylet.execute_task File "/ho...

8得票1回答
射线是否线程安全?

假设一个 ray actor 如下所定义。 @ray.remote class Buffer: def __init__(self): self.memory = np.zeros(10) def modify_data(self, indices, val...

8得票1回答
有没有一种方法可以限制Ray对象存储的最大内存使用?

我正在尝试利用Ray的并行化模型逐条处理文件记录。代码运行良好,但对象存储快速增长最终导致程序崩溃。我避免使用ray.get(function.remote()),因为这会降低性能,由于任务由数百万个子任务组成,等待任务完成的开销很大。有没有一种方法可以设置全局限制对象存储空间? #code...