FileSystemWatcher丢失文件

4

我是C#的新手,正在编写一个程序,使用fileSystemWatcher监视包含.xml文件的文件夹,该方法被称为folderWatch。.xml文件包含电子邮件地址和图像路径,一旦读取,将通过电子邮件发送。如果我一次只添加几个xml,那么我拥有的代码就可以正常工作,但是当我尝试将大量xml丢入文件夹时,fileSystemWatcher无法处理所有xml。请帮助指点一下方向。

private System.IO.FileSystemWatcher m_Watcher;
public string folderMonitorPath = Properties.Settings.Default.monitorFolder;

    public void folderWatch()
    {
        if(folderMonitorPath != "")
        {
            m_Watcher = new System.IO.FileSystemWatcher();
            m_Watcher.Filter = "*.xml*";
            m_Watcher.Path = folderMonitorPath;
            m_Watcher.NotifyFilter = NotifyFilters.LastAccess | NotifyFilters.LastWrite
                                     | NotifyFilters.FileName | NotifyFilters.DirectoryName;
            m_Watcher.Created += new FileSystemEventHandler(OnChanged);
            m_Watcher.EnableRaisingEvents = true;
        }
    }

    public void OnChanged(object sender, FileSystemEventArgs e)
    {
        displayText("File Added " + e.FullPath);
        xmlRead(e.FullPath);
    }

读取xml

    public void xmlRead(string path)
    {

        XDocument document = XDocument.Load(path);
        var photo_information = from r in document.Descendants("photo_information")
                                select new
                                {
                                    user_data = r.Element("user_data").Value,
                                    photos = r.Element("photos").Element("photo").Value,
                                };
        foreach (var r in photo_information)
        {
            if (r.user_data != "")
            {
                var attachmentFilename = folderMonitorPath + @"\" + r.photos;
                displayText("new user data " + r.user_data);
                displayText("attemting to send mail");
                sendemail(r.user_data, attachmentFilename);
            }
            else
            {
                displayText("no user data moving to next file");
            }
        }

发送邮件
public void sendemail(string email, string attachmentFilename)
    {
        //myTimer.Stop();

            MailMessage mail = new MailMessage();
            SmtpClient SmtpServer = new SmtpClient(smtpClient);

            mail.From = new MailAddress(mailFrom);
            mail.To.Add(email);
            mail.Subject = "test";
            mail.Body = "text";

            SmtpServer.Port = smtpPort;
        SmtpServer.Credentials = new System.Net.NetworkCredential("username", "password");
        SmtpServer.EnableSsl = true;
        // SmtpServer.UseDefaultCredentials = true;

        if (attachmentFilename != null)
            {
                Attachment attachment = new Attachment(attachmentFilename, MediaTypeNames.Application.Octet);
                ContentDisposition disposition = attachment.ContentDisposition;
                disposition.CreationDate = File.GetCreationTime(attachmentFilename);
                disposition.ModificationDate = File.GetLastWriteTime(attachmentFilename);
                disposition.ReadDate = File.GetLastAccessTime(attachmentFilename);
                disposition.FileName = Path.GetFileName(attachmentFilename);
                disposition.Size = new FileInfo(attachmentFilename).Length;
                disposition.DispositionType = DispositionTypeNames.Attachment;
                mail.Attachments.Add(attachment);
            }
        try
        {
            SmtpServer.Send(mail);
            displayText("mail sent");
        }
        catch (Exception ex)
        {
           displayText(ex.Message);

        }

    }

2
很可能是因为花费在所有那些代码上的时间而导致它们丢失 - 将其线程化并拥有文件队列。 - BugFinder
你必须使用错误事件来让FSW告诉你正在做错什么。 - Hans Passant
FSW非常容易出错。由于某些文件系统事件,它会随机停止监听,而没有任何错误通知。如果您有兴趣,我可以提供一个Observable FileSystemWatcher,使其更可靠易用。 - Cory Nelson
3个回答

4
首先,FileSystemWatcher 具有内部有限的缓冲区来存储待处理的通知。根据文档:

系统会通知组件文件更改,并将这些更改存储在组件创建并传递给 API 的缓冲区中。每个事件最多可以使用 16 字节的内存(不包括文件名)。如果短时间内有许多更改,则缓冲区可能会溢出。这会导致组件无法跟踪目录中的更改。

您可以通过将 InternalBufferSize 设置为 64 * 1024(64KB,允许的最大值)来增加该缓冲区。

接下来(也许更重要的是)如何清除这个缓冲区。调用您的OnChanged处理程序,只有当它完成时 - 通知才会从该缓冲区中删除。这意味着如果您在处理程序中做了很多工作,则缓冲区溢出的可能性更高。为避免此问题 - 在OnChanged处理程序中尽可能少地进行工作,并在单独的线程中执行所有繁重的工作,例如(仅用于说明目的,不适用于生产环境):

var queue = new BlockingCollection<string>(new ConcurrentQueue<string>());
new Thread(() => {
    foreach (var item in queue.GetConsumingEnumerable()) {
        // do heavy stuff with item
    }
}) {
    IsBackground = true
}.Start();
var w = new FileSystemWatcher();
// other stuff
w.Changed += (sender, args) =>
{
    // takes no time, so overflow chance is drastically reduced
    queue.Add(args.FullPath);
};

您还没有订阅FileSystemWatcherError事件,因此您不知道是否发生了错误,更不知道何时发生。

谢谢 Evk,经过一点调整,我已经让它工作了,似乎不再丢失任何文件。 - user3260707
@Evk 我有一个类似的情况,我的代码变化如下:`w.Changed += (sender, args) => { // 在这里调用一个带有4个参数的函数, PerformAction(string, string, string, int);// 所以有没有一种方法可以将所有4个参数存储起来,以便我可以从单独的线程中调用PerformAction()。 queue.Add(args.FullPath); };` - m_alpha
@m_alpha,你可以创建一个带有4个属性(PerformAction的参数)的单独类,并将该类的实例存储在队列中,而不仅仅是一个字符串。 - Evk
@Evk 感谢您的回复,我昨天做了类似的事情。创建了一个结构体,然后将其实例存储在队列中,而不是类。想问一下,在事件处理程序本身中是否可以调用new Thread(() => {foreach (var item in queue.GetConsumingEnumerable()) {// do heavy stuff with item}},即 w.Changed += (sender, args) - m_alpha
@m_alpha 在这种情况下,您将在每次更改时创建一个新线程,因此如果有100个更改-就会有100个线程都执行相同的操作。您应该在处理程序之外执行此操作。 - Evk

1
FSW的文档警告,如果事件处理时间过长,可能会丢失一些事件。因此,它总是与队列和/或后台处理一起使用。
一种选择是使用Task.Run在后台执行处理:
public void OnChanged(object sender, FileSystemEventArgs e)
{
    _logger.Info("File Added " + e.FullPath);
    Task.Run(()=>xmlRead(e.FullPath));
}

请注意我使用的是日志记录,而不是 displayText 做的任何事情。你无法从另一个线程访问 UI 线程。如果你想记录进度,请使用日志记录库。
你还可以使用 IProgress< T> 接口报告长时间运行作业的进度,或者通过它发布的任何其他内容。 Progress< T> 实现会处理将进度对象编排到其父线程(通常是 UI 线程)的工作。
甚至更好的解决方案是使用 ActionBlock< T>。 ActionBlock 具有输入缓冲区,可以排队传入的消息和 DOP 设置,允许你指定可以并发执行多少个操作。默认值为 1:
ActionBlock<string> _mailerBlock;

public void Init()
{
    var options=new ExecutionDataflowBlockOptions { 
        MaxDegreeOfParallelism = 5
     };
    _mailerBlock = new ActionBlock<string>(path=>xlmRead(path),options);
}

public void OnChanged(object sender, FileSystemEventArgs e)
{
    _logger.Info("File Added " + e.FullPath);
    _mailerBlock.Post(e.FullPath);
} 

更好的是,您可以创建不同的块用于阅读和发送电子邮件,并将它们连接在管道中。在这种情况下,文件读取器会生成大量的电子邮件,这意味着需要一个TransformManyBlock
class EmailInfo 
{ 
    public string Data{get;set;}
    public string Attachement{get;set;}
}


var readerBlock = new TransformManyBlock<string,EmailInfo>(path=>infosFromXml(path));

var mailBlock = new ActionBlock<EmailInfo>(info=>sendMailFromInfo(info));

readerBlock.LinkTo(mailBlock,new DataflowLinkOptions{PropagateCompletion=true});

"

xmlRead 方法应该改为迭代器。

"
public IEnumerable<EmailInfo> infosFromXml(string path)
{
    // Same as before ...
    foreach (var r in photo_information)
    {
        if (r.user_data != "")
        {
            ...
            yield return new EmailInfo{
                      Data=r.user_data, 
                      Attachment=attachmentFilename};
        }
       ...
    }
}

发送邮件到:

sendmail
public void sendMailFromInfo(EmailInfo info)
{
    string email=info.Data;
    string attachmentFilename=info.Attachment;
}

当您想终止管道时,请在头块上调用Complete()并等待尾部的完成。这将确保所有剩余的文件都将被处理:

readerBlock.Complete();
await mailerBlock.Completion;

-1

1
修改日期本身不可靠且缓慢。如果您不滥用它,FSW将正常工作。而且,除非您使用像AlphaFS这样的库并具有管理员权限以启用整个卷,否则.NET无法访问日志。 - Panagiotis Kanavos
而你没有意识到的是,使用轮询更加轻便,通常只需使用最后修改日期和长度就足以知道文件是否发生了变化。如果需要超高精度,则可以使用文件流的前几位或后几位的md5哈希值。你只需要知道如何读取日志,无需使用一些庞大的库。 - Chibueze Opata

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接