如何解码Node.js中的内存数据并调试内存泄漏?

7
我有一个RSS到MongoDB的阅读器/抓取器,需要处理的数据集比我的系统内存还大。当我循环遍历数据时,系统会变慢。我相信这是因为我用尽了内存。
我添加了一些调试信息并进行了一些更改,但我不知道如何阅读调试输出中给出的信息。
以下是一个调试输出示例(在程序崩溃之前):
 100 items 
 Memory: { rss: 11104256,        // what is RSS?
           vsize: 57507840,      // what is VSIZE?
           heapTotal: 4732352,   // heapTotal?
           heapUsed: 3407624 }   // heapUsed?
 200 items
 Memory: { rss: 12533760,
           vsize: 57880576,
           heapTotal: 6136320,
           heapUsed: 3541984 }
                                 // what key numbers do I watch for?
                                 // when do I reach 'situation critical'? 
                                 // how do I free up memory to prevent problems?

此外,为了更好地说明,如果有帮助的话,我已经包含了代码示例。我已经做出的一个更改是将所有的require语句移动到GrabRss函数之外。
var http    = require('http');
var sys     = require('sys');
var xml2js  = require('xml2js');
var util    = require('util');
var Db      = require('../lib/mongodb').Db,
    Conn    = require('../lib/mongodb').Connection,
    Server  = require('../lib/mongodb').Server,
    // BSON = require('../lib/mongodb').BSONPure;
    BSON    = require('../lib/mongodb').BSONNative;

GrabRss = function(grab, start) {           
    var options = {
        host: 'www.example.com',
        port: 80,
        path: '/rss/'+grab+'/'+start
    };

    var data;
    var items;
    var checked = 0;
    var len = 0;

    GotResponse = function(res) {
        var ResponseBody = "";
        res.on('data', DoChunk);
        res.on('end', EndResponse);

        function DoChunk(chunk){
            ResponseBody += chunk;
        }
        function EndResponse() {
            //console.log(ResponseBody);
            var parser = new xml2js.Parser();
            parser.addListener('end', GotRSSObject);
            parser.parseString(ResponseBody);
        }
    }

    GotError = function(e) {
        console.log("Got error: " + e.message);
    }

    GotRSSObject = function(r){
        items = r.item;
        //console.log(sys.inspect(r));

        var db = new Db('rss', new Server('localhost', 27017, {}), {native_parser:false});
        db.open(function(err, db){
             db.collection('items', function(err, col) {
                len = items.length;
                if (len === 0) {
                    process.exit(0);
                }
                for (i in items) {
                    SaveItem(item[i], col);
                }
             });
        });
    }

    SaveMovie = function(i, c) {
        c.update({'id': i.id}, {$set: i}, {upsert: true, safe: true}, function(err){
            if (err) console.warn(err.message);
            if (++checked >= len) {
                if (checked < 5000) {
                        delete data;   // added since asking
                        delete items; // added since asking

                    console.log(start+checked);
                    console.log('Memory: '+util.inspect(process.memoryUsage()));
                    GrabRss(50, start+checked);
                } else {
                    console.log(len);
                    process.exit(0);
                }
            } else if (checked % 10 == 0) {
                console.log(start+checked);
            }
        });
    }
    http.get(options, GotResponse).on('error', GotError);

}
GrabRss(50, 0);
1个回答

8
阅读完这段代码后,我发现GotRSSObject中的items被声明为全局变量,因为它前面没有var。除此之外,我没有看到其他明显的内存泄漏问题。一个好的基本技术是添加一些打印语句来查看内存分配的位置,然后通过断言变量== null来检查您期望的内存清理位置。
Node.js和v8的内存问题在于不能保证随时进行垃圾回收,而且据我所知,您无法强制进行垃圾回收。您需要限制要处理的数据量以便轻松适应内存,并提供一些错误处理(可能使用setTimeout或process.nextTick)等待直到内存已被清除。
关于nextTick的建议 - 它是一个非常快速的调用。众所周知,Node.js在事件循环上是单线程的。使用nextTick将在下一个循环中立即执行该函数 - 确保您不经常调用它,否则您会发现自己浪费了循环。
至于rss、vsize、heapTotal、heapUsed...... vsize是进程正在使用的整个内存大小,而rss是实际物理RAM中而非交换中使用的内存量。heaptotal和heapUsed是指您无法控制的v8底层存储。您主要关心vsize,但也可以使用OS X上的top或Activity Monitor获取更详细的信息(有人知道*nix系统上的好进程可视化工具吗?)。

下一个时刻似乎真的平滑了处理过程。你知道内存值(rss、vsize、heaptotal、heapused)是什么意思吗?这里的文档http://nodejs.org/docs/v0.4.8/api/all.html#process.memoryUsage没有详细说明。 - Alex C
关于 nextTick 的建议 - 它是一个非常快的调用。众所周知,Node.js 在事件循环上是单线程的。使用 nextTick 将在下一个循环中立即执行该函数 - 确保您不经常调用它,否则您会发现自己浪费了循环。 - tjarratt
关于rss、vsize、heaptotal和heapused... vsize是您的进程正在使用的整个内存大小,而rss是实际物理RAM中而不是交换区中使用的内存量。Teaptotal和heapused是指您无法控制的v8底层存储。 - tjarratt
太好了!谢谢 - 所以理想情况下,我希望尽我所能让equal带来的RSS尽可能接近VSIZE。 - Alex C
这可能是无用的。启动节点并执行 process.memoryUsage();每隔几秒钟,您会发现各种数字只会不断增长。 - Richard

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接