C# 文件名清洗

211
最近我一直在将各种MP3从不同的位置移动到一个仓库中。我一直在使用ID3标签构建新的文件名(感谢TagLib-Sharp!),但我发现我会收到“System.NotSupportedException:给定路径的格式不受支持”的错误提示。这是由File.Copy()Directory.CreateDirectory()生成的。
很快我意识到我的文件名需要被过滤清理。所以我做了一个显而易见的事情:
public static string SanitizePath_(string path, char replaceChar)
{
    string dir = Path.GetDirectoryName(path);
    foreach (char c in Path.GetInvalidPathChars())
        dir = dir.Replace(c, replaceChar);

    string name = Path.GetFileName(path);
    foreach (char c in Path.GetInvalidFileNameChars())
        name = name.Replace(c, replaceChar);

    return dir + name;
}

令我惊讶的是,我仍然收到异常。原来,':'不在Path.GetInvalidPathChars()集合中,因为它在路径根目录中是有效的。我想这很有道理 - 但这必须是一个相当普遍的问题。是否有一些简短的代码可以清理路径?最彻底的代码是我能想出来的,但感觉可能有些过度了。
    // replaces invalid characters with replaceChar
    public static string SanitizePath(string path, char replaceChar)
    {
        // construct a list of characters that can't show up in filenames.
        // need to do this because ":" is not in InvalidPathChars
        if (_BadChars == null)
        {
            _BadChars = new List<char>(Path.GetInvalidFileNameChars());
            _BadChars.AddRange(Path.GetInvalidPathChars());
            _BadChars = Utility.GetUnique<char>(_BadChars);
        }

        // remove root
        string root = Path.GetPathRoot(path);
        path = path.Remove(0, root.Length);

        // split on the directory separator character. Need to do this
        // because the separator is not valid in a filename.
        List<string> parts = new List<string>(path.Split(new char[]{Path.DirectorySeparatorChar}));

        // check each part to make sure it is valid.
        for (int i = 0; i < parts.Count; i++)
        {
            string part = parts[i];
            foreach (char c in _BadChars)
            {
                part = part.Replace(c, replaceChar);
            }
            parts[i] = part;
        }

        return root + Utility.Join(parts, Path.DirectorySeparatorChar.ToString());
    }

任何能使这个函数更快、更简单的改进都将不胜感激。

14个回答

370

为了清理文件名,您可以执行以下操作

private static string MakeValidFileName( string name )
{
   string invalidChars = System.Text.RegularExpressions.Regex.Escape( new string( System.IO.Path.GetInvalidFileNameChars() ) );
   string invalidRegStr = string.Format( @"([{0}]*\.+$)|([{0}]+)", invalidChars );

   return System.Text.RegularExpressions.Regex.Replace( name, invalidRegStr, "_" );
}

1
备注:从该方法返回的数组不能保证包含所有在文件和目录名称中无效的字符集合。 - Mark Byers
22
好的方法。但不要忘记保留字仍会困扰你,你可能会被搞得一头雾水。来源:维基百科文件名保留字 - Spud
10
如果文件名末尾有句号,它们就是无效字符,因此GetInvalidFileNameChars不包括它们。在Windows中,它不会抛出异常,而只是将它们去掉,但如果您期望句号存在,则可能导致意外行为。我修改了正则表达式来处理这种情况,使点号被视为字符串末尾的无效字符之一。 - Scott Chamberlain
尾随的句点可能是无效的,但前导的句点是有效的。例如,Apache Web服务器使用 .htaccess 配置文件,而 Windows Explorer 错误地表示这些文件无效(但可以通过命令提示符以这种方式命名)。 - Elaskanator
请注意,在方括号中转义规则不同:https://dev59.com/s2kv5IYBdhLWcg3wbgbQ#10593427。 - Olivier Jacot-Descombes

182

更短的解决方案:

var invalids = System.IO.Path.GetInvalidFileNameChars();
var newName = String.Join("_", origFileName.Split(invalids, StringSplitOptions.RemoveEmptyEntries) ).TrimEnd('.');

4
这比前面的答案更好,特别是针对 ASP.NET Core,因为它可能会根据平台返回不同的字符。 - Alexei - check Codidact
2
你为什么要添加 .TrimEnd('.') - Emanuele
Emanuele,因为尾随的点是无效的(至少在Windows中)。 - Graeme Wicksted
请注意,如果在跨平台运行时,这可能会导致意外的副作用。无效的文件名字符包括正斜杠“/”,这在大多数非Windows平台上是完全有效的。 - Dave Jarvis
@Dave Jarvis,字符“/”是Unix派生系统上的路径分隔符,因此在文件名中被禁止使用。实际上,“/”和\0(NUL)是唯一不能放入目录项的文件名字段的字节值。但是,在为存储准备文件名时,我更喜欢使用最严格的标准,并删除在文件可能存在的任何操作系统上无效的任何内容...或者可能稍后被复制到的任何操作系统上无效的任何内容,这意味着冒号和反斜杠(在Unixy系统上有效)也必须去掉。 - KrisW
这个没什么运气。从:D:\Users\Richard.Bianco\Files\richard.bianco\1692136939290\importtest.txt 到:D_Users_Richard.Bianco_Files_richard.bianco_1692136939290_importtest.txt - Rich Bianco

98

根据Andre的优秀回答,但考虑到Spud对保留字的评论,我制作了这个版本:

/// <summary>
/// Strip illegal chars and reserved words from a candidate filename (should not include the directory path)
/// </summary>
/// <remarks>
/// https://dev59.com/R3VC5IYBdhLWcg3wZwJT
/// </remarks>
public static string CoerceValidFileName(string filename)
{
    var invalidChars = Regex.Escape(new string(Path.GetInvalidFileNameChars()));
    var invalidReStr = string.Format(@"[{0}]+", invalidChars);

    var reservedWords = new []
    {
        "CON", "PRN", "AUX", "CLOCK$", "NUL", "COM0", "COM1", "COM2", "COM3", "COM4",
        "COM5", "COM6", "COM7", "COM8", "COM9", "LPT0", "LPT1", "LPT2", "LPT3", "LPT4",
        "LPT5", "LPT6", "LPT7", "LPT8", "LPT9"
    };

    var sanitisedNamePart = Regex.Replace(filename, invalidReStr, "_");
    foreach (var reservedWord in reservedWords)
    {
        var reservedWordPattern = string.Format("^{0}\\.", reservedWord);
        sanitisedNamePart = Regex.Replace(sanitisedNamePart, reservedWordPattern, "_reservedWord_.", RegexOptions.IgnoreCase);
    }

    return sanitisedNamePart;
}

这是我的单元测试

[Test]
public void CoerceValidFileName_SimpleValid()
{
    var filename = @"thisIsValid.txt";
    var result = PathHelper.CoerceValidFileName(filename);
    Assert.AreEqual(filename, result);
}

[Test]
public void CoerceValidFileName_SimpleInvalid()
{
    var filename = @"thisIsNotValid\3\\_3.txt";
    var result = PathHelper.CoerceValidFileName(filename);
    Assert.AreEqual("thisIsNotValid_3__3.txt", result);
}

[Test]
public void CoerceValidFileName_InvalidExtension()
{
    var filename = @"thisIsNotValid.t\xt";
    var result = PathHelper.CoerceValidFileName(filename);
    Assert.AreEqual("thisIsNotValid.t_xt", result);
}

[Test]
public void CoerceValidFileName_KeywordInvalid()
{
    var filename = "aUx.txt";
    var result = PathHelper.CoerceValidFileName(filename);
    Assert.AreEqual("_reservedWord_.txt", result);
}

[Test]
public void CoerceValidFileName_KeywordValid()
{
    var filename = "auxillary.txt";
    var result = PathHelper.CoerceValidFileName(filename);
    Assert.AreEqual("auxillary.txt", result);
}

2
小建议,因为看起来这个方法是朝着这个方向发展的:添加一个“this”关键字,它就成为了一个方便的扩展方法。public static String CoerceValidFileName(this String filename) - Ryan McArthur
4
小问题:该方法不会更改没有文件扩展名的保留字(例如 COM1),这些也是不允许的。建议修复方法是将 reservedWordPattern 改为 "^{0}(\\.|$)",替换字符串改为 "_reservedWord_$1" - Dehalion
1
这对于 Clock$. 失败了,因为 reservedWordPattern 需要通过 Regex.Escape() 传递。 - Alex K.

39
string clean = String.Concat(dirty.Split(Path.GetInvalidFileNameChars()));

5
考虑使用 String.Concat(dirty...) 替代 Join(String.Empty... - drzaus
DenNukem已经建议了这个答案:https://dev59.com/R3VC5IYBdhLWcg3wZwJT#13617375(尽管评论也要考虑)。 - Dude Pascalou

9

这里有很多可行的解决方案。为了完整起见,这里介绍一种不使用正则表达式但使用LINQ的方法:

var invalids = Path.GetInvalidFileNameChars();
filename = invalids.Aggregate(filename, (current, c) => current.Replace(c, '_'));

此外,这是一个非常简短的解决方案 ;)

6
我希望以某种方式保留字符,而不仅仅是用下划线替换字符。
其中一种想法是用看起来相似但(在我的情况下)不太可能用作常规字符的字符代替这些字符。所以我列出了无效字符列表并找到了相似的字符。
以下是编码和解码使用相似字符的函数。 此代码不包括所有 System.IO.Path.GetInvalidFileNameChars() 字符的完整清单。因此,您需要扩展或利用下划线替换任何剩余字符。
private static Dictionary<string, string> EncodeMapping()
{
    //-- Following characters are invalid for windows file and folder names.
    //-- \/:*?"<>|
    Dictionary<string, string> dic = new Dictionary<string, string>();
    dic.Add(@"\", "Ì"); // U+OOCC
    dic.Add("/", "Í"); // U+OOCD
    dic.Add(":", "¦"); // U+00A6
    dic.Add("*", "¤"); // U+00A4
    dic.Add("?", "¿"); // U+00BF
    dic.Add(@"""", "ˮ"); // U+02EE
    dic.Add("<", "«"); // U+00AB
    dic.Add(">", "»"); // U+00BB
    dic.Add("|", "│"); // U+2502
    return dic;
}

public static string Escape(string name)
{
    foreach (KeyValuePair<string, string> replace in EncodeMapping())
    {
        name = name.Replace(replace.Key, replace.Value);
    }

    //-- handle dot at the end
    if (name.EndsWith(".")) name = name.CropRight(1) + "°";

    return name;
}

public static string UnEscape(string name)
{
    foreach (KeyValuePair<string, string> replace in EncodeMapping())
    {
        name = name.Replace(replace.Value, replace.Key);
    }

    //-- handle dot at the end
    if (name.EndsWith("°")) name = name.CropRight(1) + ".";

    return name;
}

您可以选择自己的相似之处。我使用Windows中的字符映射应用程序来选择我的相似之处%windir%\system32\charmap.exe 随着发现过程的调整,我会更新此代码。

1
请注意,有许多字符看起来更类似于全角形式,如!"#$%&'()*+,-./:;<=>?@{|}~或其他形式,如/斜杠和分数斜杠,可以直接在文件名中使用而不会出现问题。 - phuclv
1
很高兴看到有一个回答提到了在使用相同模式处理不同无效字符时可能出现重复文件的风险。我通过使用ASCII标记(0x000)对文件名进行编码来适应这个解决方案。 - Larry
什么是CropRight? - Valerio Gentile

5
我正在使用 System.IO.Path.GetInvalidFileNameChars() 方法来检查无效字符,目前没有问题。
以下是我使用的代码:
foreach( char invalidchar in System.IO.Path.GetInvalidFileNameChars())
{
    filename = filename.Replace(invalidchar, '_');
}

问题在于GetInvalidFileNameChars不是无效字符的完整列表。 - Jacques

2
我过去曾经成功地使用过这个。
不错,简短而静态 :-)
    public static string returnSafeString(string s)
    {
        foreach (char character in Path.GetInvalidFileNameChars())
        {
            s = s.Replace(character.ToString(),string.Empty);
        }

        foreach (char character in Path.GetInvalidPathChars())
        {
            s = s.Replace(character.ToString(), string.Empty);
        }

        return (s);
    }

2
我认为问题在于您首先在错误的字符串上调用Path.GetDirectoryName。如果其中包含非文件名字符,则 .Net 无法确定哪些部分是目录并抛出异常。您需要进行字符串比较。
假设只有文件名有问题,而不是整个路径,请尝试以下操作:
public static string SanitizePath(string path, char replaceChar)
{
    int filenamePos = path.LastIndexOf(Path.DirectorySeparatorChar) + 1;
    var sb = new System.Text.StringBuilder();
    sb.Append(path.Substring(0, filenamePos));
    for (int i = filenamePos; i < path.Length; i++)
    {
        char filenameChar = path[i];
        foreach (char c in Path.GetInvalidFileNameChars())
            if (filenameChar.Equals(c))
            {
                filenameChar = replaceChar;
                break;
            }

        sb.Append(filenameChar);
    }

    return sb.ToString();
}

1
这是一个基于Andre代码的高效lazy loading扩展方法:
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading.Tasks;

namespace LT
{
    public static class Utility
    {
        static string invalidRegStr;

        public static string MakeValidFileName(this string name)
        {
            if (invalidRegStr == null)
            {
                var invalidChars = System.Text.RegularExpressions.Regex.Escape(new string(System.IO.Path.GetInvalidFileNameChars()));
                invalidRegStr = string.Format(@"([{0}]*\.+$)|([{0}]+)", invalidChars);
            }

            return System.Text.RegularExpressions.Regex.Replace(name, invalidRegStr, "_");
        }
    }
}

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接