NodeJS:如何释放分配在V8内存堆之外的缓冲区

6

我有一个应用程序,其中我从服务器顺序下载mp3文件,暂时将它们存储在我的服务器上,然后直接向客户端流式传输它们,如下所示:

function downloadNextTrack(){
  var request = http.get('http://mp3server.com', function(response){
    response.on('data', function(data) {
      fs.appendFile('sometrack.mp3', data, function (err) {});
    });
    response.on('end', function(){
      streamTrack('sometrack.mp3');
    }
  });
};

var clients = []; // client response objects are pushed to this array when they request the stream through a route like /stream.mp3

var stream;

function streamTrack(track){
  stream = fs.createReadStream(track);
  stream.on('data', function(data){
    clients.forEach(function(client) {
      client.write(data);
    });
  });
  stream.on('end', function(){
    downloadNextTrack(); // redoes the same thing with another track
  }
};

显然,这段代码创建了许多缓冲区,而操作系统没有释放它们。当我运行'free -M'命令时,得到的结果如下(在运行该应用程序约4个小时后):

                   total      used       free     shared    buffers     cached
              Mem: 750        675         75          0         12        180
-/+ buffers/cache:            481        269
             Swap: 255        112        143

'缓冲区'下面的数字不断上升(以及缓存内存),操作系统显然不会收回那180mb,直到最终我的应用程序耗尽内存并在我尝试生成小进程以验证轨道的比特率、采样率、id3信息等时崩溃。
我使用了很多不同的工具进行诊断(如memwatch和nodetime),以找出是否存在内存泄漏,但实际上没有,V8内存堆以及Node RSS变化+/-10mb,但在大部分时间里保持恒定,而操作系统的可用内存越来越少(当Node进程启动时,我有大约350MB的可用内存)。
我在某个地方读到过,由Node分配的缓冲区实例可以直接访问原始内存,所以V8对它们无法控制(这与我从V8堆中没有获得内存泄漏的事实相符),问题是,我需要一种方法来摆脱这些旧缓冲区。这可能吗?或者我必须每5个小时重新启动我的应用程序(或更糟糕,购买更多RAM!)?
PS.我在Ubuntu 10.04上运行Node v0.8.16。

1
嗨,也许这是一个愚蠢的问题,但如果我错了,请纠正我:顺序是0)下载轨道#0 1)完成后,为所有客户端流式传输 2)完成流式传输后,下载Track#1当您执行此操作时,它有点递归,对吧?在第一次调用'streamTrack'内部,您有一个流变量(它是全局变量吗?),最后,您调用'downloadNextTrack'并再次调用'streamTrack',使用不同的流变量。如果使用递归调用,可能会导致问题? - Tiago Peczenyj
在生产代码中,这个流变量更像是一个单例,因此当另一个流开始时,它会被重新分配给新的readStream。它的行为类似于全局变量,但并不完全是全局变量。 - pedromtavares
尝试使用 setTimeout(function (){streamTrack('somefile');}, 0);。 它将消除“递归”错误(我知道,有点延迟的答案)。 - Ivan Seidel
2个回答

2
我同意Tiago的观点,我认为这是由于您的代码递归性质引起的。我不认为流是在占用您的堆内存,因为正如您所说,每次迭代都会重新分配一个新的ReadStream变量。然而,在调用下一次迭代之前,第2行中http.get的请求和响应(以及它们使用的任何缓冲区)从未被释放;它们在downloadNextTrack函数中作用域限定。你最终得到一个递归堆栈跟踪,每个文件都有一组请求和响应对象(以及一些底层缓冲区)。
一般来说,如果这段代码需要运行很多次,为什么不选择迭代式地执行呢?无限递归将始终占用更多的内存,直到程序崩溃,即使您没有内存泄漏问题。

你建议在调用streamTrack之前将请求和响应变量置空吗?我原本认为一旦响应结束并且我不再使用这些变量,它们最终会被GC收集掉。 将所有内容保持在一个无限循环中是否可以解决这个问题?顺便说一下:这是生产代码:https://github.com/pedromtavares/radio/blob/master/lib/provider.js - pedromtavares
Nulling不会有帮助,因为堆栈跟踪会不断增长,而JS仍将保留对流对象的[closure]引用。使用无限循环(简单的迭代循环)就可以解决问题,因为这样会引用旧的流对象。 - Ohad Kravchick
经过一番思考,你的思路确实是有道理的。我现在没有时间重构代码(而且我也没有为它编写测试,真是可耻),看看这是否可以解决问题,但我会把你的答案视为正确的。谢谢啊 :) - pedromtavares

0

阅读此内容:http://www.linuxatemyram.com

缓冲区高速缓存是用于inode和dentry(文件系统结构)的高速缓存。该内存仍然可供进程使用。您不应该关心这个。


1
虽然这个链接可能回答了问题,但最好在此处包含答案的基本部分并提供参考链接。如果链接页面更改,仅链接的答案可能会失效。- 来自审查 - seenukarthi
好的,没问题,只是英语不是我的母语,那个网站解释得更好。而且我也不知道复制粘贴他们的内容是否属于合理使用。 那个网站的唯一目的就是解释这件事情。 - arboreal84

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接