在C#应用程序中使用多线程时出现内存不足异常

4
我正在使用C#编写一个应用程序,它会遍历本地数据库副本中维基百科的文章。我使用一些正则表达式在这些文章中查找正确的信息,启动线程为每篇文章获取图像,保存信息并前往下一篇文章。
我需要使用代理列表下载这些图片,以免被谷歌禁止访问。由于代理可能较慢,因此我使用线程进行并行下载。
如果不使用线程,该应用程序可以正常工作,但需要一段时间才能获得所有信息。
如果使用线程,应用程序工作正常,但当使用约500个线程时,就会出现OutOfMemory异常。
问题是它只使用了约300Mo的RAM,因此它既没有使用可用总内存(8Go),也没有使用分配给单个32位应用程序的内存。
是否有每个应用程序的线程限制?
编辑:
以下是下载海报的代码(从getPosterAsc()开始)。
    string ddlValue = "";
    private void tryDownload(object obj)
    {
        WebClient webClientProxy = new WebClient();
        Tuple<WebProxy, int> proxy = (Tuple<WebProxy, int>)((object[])obj)[0];
        if (proxy != null)
            webClientProxy.Proxy = proxy.Item1;
        try
        {
            ddlValue = webClientProxy.DownloadString((string)((object[])obj)[1]);
        }
        catch (Exception ex) { 
            ddlValue = "";

            Console.WriteLine("trydownload:" + ex.Message);
        }

        webClientProxy.Dispose();
    }

    public void getPoster(object options = null)
    {
        if (options == null)
            options = new object[2] { toSave, false };
        if (!AppVar.debugMode && AppVar.getImages && this.getImage)
        {
            if (this.original_name != "" && !this.ambName && this.suitable)
            {
                Log.CountImgInc();

                MatchCollection MatchList;
                string basic_options = "";
                string value = "";
                WebClient webClient = new WebClient();
                Regex reg;
                bool found = false;

                if (original_name.Split(' ').Length > 1) image_options = "";

                if (!found)
                {
                    bool succes = false;
                    int countTry = 0;
                    while (!succes)
                    {
                        Tuple<WebProxy, int> proxy = null;
                        if (countTry != 5)
                            proxy = Proxy.getProxy();

                        try
                        {
                            Thread t = new Thread(tryDownload);
                            if (!(bool)((object[])options)[1])
                                t.Start(new object[] { proxy, @"http://www.google.com/search?as_st=y&tbm=isch&as_q=" + image_options + "+" + basic_options + "+" + image_options_before + "%22" + simplify(original_name) + "%22+" + " OR %22" + original_name + "%22+" + image_options_after + this.image_format });
                            else
                                t.Start(new object[] { proxy, @"http://www.google.com/search?as_st=y&tbm=isch&as_q=" + image_options + "+" + basic_options + "+" + image_options_before + "%22" + simplify(original_name) + "%22+" + " OR %22" + original_name + "%22+" + image_options_after + "&biw=1218&bih=927&tbs=isz:ex,iszw:758,iszh:140,ift:jpg&tbm=isch&source=lnt&sa=X&ei=kuG7T6qaOYKr-gafsOHNCg&ved=0CIwBEKcFKAE" });
                            if (!t.Join(40000))
                            {
                                Proxy.badProxy(proxy.Item1.Address.Host, proxy.Item1.Address.Port);
                                continue;
                            }
                            else
                            {
                                value = ddlValue;
                                if (value != "")
                                    succes = true;
                                else
                                    Proxy.badProxy(proxy.Item1.Address.Host, proxy.Item1.Address.Port);
                            }
                        }
                        catch (Exception ex)
                        {
                            if (proxy != null)
                                Proxy.badProxy(proxy.Item1.Address.Host, proxy.Item1.Address.Port);
                        }
                        countTry++;
                    }

                    reg = new Regex(@"imgurl\=(.*?)&amp;imgrefurl", RegexOptions.IgnoreCase);
                    MatchList = reg.Matches(value);
                    if (MatchList.Count > 0)
                    {
                        bool foundgg = false;
                        int j = 0;
                        while (!foundgg && MatchList.Count > j)
                        {
                            if (MatchList[j].Groups[1].Value.Substring(MatchList[j].Groups[1].Value.Length - 3, 3) == "jpg")
                            {
                                try
                                {
                                    string guid = Guid.NewGuid().ToString();
                                    webClient.DownloadFile(MatchList[j].Groups[1].Value, @"c:\temp\" + guid + ".jpg");

                                    FileInfo fi = new FileInfo(@"c:\temp\" + guid + ".jpg");
                                    this.image_size = fi.Length;

                                    using (Image img = Image.FromFile(@"c:\temp\" + guid + ".jpg"))
                                    {
                                        int minHeight = this.cov_min_height;
                                        if ((bool)((object[])options)[1])
                                            minHeight = 100;

                                        if (img.RawFormat.Equals(System.Drawing.Imaging.ImageFormat.Jpeg) && img.HorizontalResolution > 70 && img.Size.Height > minHeight && img.Size.Width > this.cov_min_width && this.image_size < 250000)
                                        {
                                            foundgg = true;
                                            image_name = guid;
                                            image_height = img.Height;
                                            image_width = img.Width;
                                            img.Dispose();
                                            if ((bool)((object[])options)[0])
                                            {
                                                Mediatly.savePoster(this, (bool)((object[])options)[1]);
                                            }
                                        }
                                        else
                                        {
                                            img.Dispose();
                                            File.Delete(@"c:\temp\" + guid.ToString() + ".jpg"); 
                                        }
                                    }
                                }
                                catch (Exception ex)
                                {
                                }
                            }

                            j++;
                        }
                    }
                }

                webClient.Dispose();
                Log.CountImgDec();
            }
        }
    }

    public void getPosterAsc(bool save = false, bool banner = false)
    {
        ThreadPool.QueueUserWorkItem(new WaitCallback(getPoster), new object[2] { save, banner });
    }

无法判断,需要展示一些代码。 - Raptor
4
不要为每个获取的项(图像?)启动单独的线程。这将导致至少分配500 MB(因为每个线程至少分配了1MB的堆栈+其他资源)。相反,您应该使用ThreadPool或Tasks,并让它们处理队列。注意:这是一个(过度)简化的描述。有关更多详细信息和解释,请参阅此 Stack Overflow 回答。 - Christian.K
1
然后,您只需要根据系统信息对并发线程施加限制。 - MoonKnight
@Sébastien:“我需要尽可能多的线程。” 我理解,但最大可能数不是N(其中N是long.Max或其他非常大的整数),它受本地系统的限制。我想说的是,为了“节省时间”而生成N个线程并不是正确的方法。你是否在池化你的线程? - MoonKnight
1
您可能正在使用此代码耗尽内核内存池。大量I/O缓冲区未能及时读取。在这种情况下,没有任何场景需要使用500个线程。 - Hans Passant
显示剩余3条评论
4个回答

3
我会确保您使用线程池来“管理”您的线程。正如有人所说,每个线程占用约1MB的内存,根据系统硬件的不同情况,这可能导致问题。
解决此问题的一个潜在方法是使用线程池。这通过共享和回收线程来减少生成所有线程所产生的开销。这允许低级别的线程设施(具有许多活动线程),但限制了这样做的性能惩罚。
线程池还会同时运行一定数量的工作线程(请注意,这些都将是后台线程)的限制。太多的操作线程是很大的管理开销,并且可能使CPU缓存无效。一旦达到您强加的线程池限制,其他作业将排队,并在另一个工作线程空闲时执行。我认为,这是更有效,更安全和更节省资源的方式来完成您需要的工作。
根据您当前的代码,有几种进入线程池的方式:
1. BackgroundWorker。 2. ThreadPool.QueueUserWorkItem。 3. 异步委托。 4. PLINQ。

个人而言,我会使用TPL,因为它非常棒!希望这能有所帮助。


事实上,我已经使用BackgroundWorkers来保持我的WindowForm在工作时保持活动状态。实际上,我使用了10个BW(每种维基百科语言一个),因为我需要获取许多语言的信息。这些BW循环遍历文章并获取信息(例如,如果是电影,则还会获取演员、制作人和公司)。在每篇文章之后,它异步下载电影的海报。如果我使用ThreadPool,它会快速占用大量内存,因为所有对象(以及它们的演员、制作人等)都将保存在池中。 - Sébastien
展示一些示例代码。如果没有它,我们如何帮助您呢?它不必是40,000行,只需编写反映您当前情况的部分即可。 - MoonKnight
1
好的,我刚刚编辑了我的帖子,并附上了下载图片的主要方法 ;) - Sébastien

1

使用 Perfmon 检查实际使用内存的内容,特别注意“修改页列表字节”值。这在多线程应用程序中可能会特别麻烦,因为对于某个时间长度保持对文件的引用 - 针对此值高利用率的常规(临时)解决方案是增加可用的虚拟内存。

另外,如果在 Windows Server 2008 上运行高度线程化的应用程序,则需要应用 dynacache 来自 Microsoft,以防止系统文件缓存有效地占用可用内存。

上述两个问题都可以直接与 .net 多线程应用程序处理大量数据相关联,不幸的是它们不会显示为应用程序使用,因此很难跟踪(正如我在痛苦的几天中发现的那样)。


0
我最近在我的一个应用程序中遇到了一个非常类似的问题。它与存储和使用单个“字符串”对象中的数据量有关。如果我猜测,你的内存不足异常来自于最初的赋值。
ddlValue = webClientProxy.DownloadString((string)((object[])obj)[1]);

如果您可以将其重写以此方式,是否可以找到一种访问 Web 返回并将其作为流而不是将整个响应读入字符串的方法。然后,您可以使用流读取器逐行解析 Web 响应。

是的,我知道这听起来非常复杂,但它与我在自己的代码中最终不得不使用的解决方案相匹配。我正在处理太大而无法存储为单个字符串的东西组件,并必须直接从流中访问它们。


0

当你使用32位可执行文件时,默认情况下只能分配2GB而不是8GB(请参阅此处获取更多信息:http://blogs.msdn.com/b/tom/archive/2008/04/10/chat-question-memory-limits-for-32-bit-and-64-bit-processes.aspx

尝试限制你的工作线程,这样你就不会使用那么多,并确保线程执行的代码没有内存泄漏。

在线程执行代码中使用try... catch包装你的线程执行(如果你在线程执行代码中遇到OutOfMemoryException),因为可能与你下载的图像有关。


我知道32位限制。正如我所说,该应用程序不使用超过~300MB的内存。奇怪的是,我已经尝试限制线程数量,因此它正在工作(图像或内存泄漏没有问题)。这就是为什么我认为唯一的问题是线程数量的原因。 - Sébastien

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接