如何在Java中添加UTF-8 BOM?

29

我有一个Java存储过程,使用 Resultset 对象从表中获取记录并创建CSV文件。

BLOB retBLOB = BLOB.createTemporary(conn, true, BLOB.DURATION_SESSION);
retBLOB.open(BLOB.MODE_READWRITE);
OutputStream bOut = retBLOB.setBinaryStream(0L);

ZipOutputStream zipOut = new ZipOutputStream(bOut);
PrintStream out = new PrintStream(zipOut,false,"UTF-8");
out.write('\ufeff');
out.flush();

zipOut.putNextEntry(new ZipEntry("filename.csv"));
while (rs.next()){
    out.print("\"" + rs.getString(i) + "\"");
    out.print(",");
}
out.flush();

zipOut.closeEntry();
zipOut.close();
retBLOB.close();

return retBLOB;

但是生成的 CSV 文件没有显示正确的德语字符。Oracle 数据库也具有 UTF8 的 NLS_CHARACTERSET 值。

请建议。


2
如果您之前没有接触过这个问题,请注意Unicode标准不要求或建议在UTF-8中使用BOM。它也不是非法的,但不应该被滥用。请参见此处获取详细信息,包括何时何地使用它的一些指南。如果您正在尝试在Windows中查看csv文件,则可能是BOM的有效用途。 - Marcelo Cantos
4
建议在处理仅接受ASCII字符的软件和协议时不要使用BOM。如果发帖者知道他正在使用的Windows软件将使用BOM来检测文件实际上是以UTF-8编码的(我们不关心它不是BOM,我们关心它可以让某些软件检测到编码为UTF-8),也请注意,如果您在UTF-8中添加了BOM但有些软件失败了,那么这些软件是有问题的,因为在UTF-8开头添加BOM是完全合法的。 - SyntaxT3rr0r
@Webinator:我知道这只是问题的部分解决方案,但我真的很想看到Java文件中有一个标准的每个源单元注释,例如@encoding UTF-8。我知道这仅适用于ASCII的超集,如UTF-8、ISO 8859-?、MacRoman或CP1252,并且必须在看到任何非ASCII字符之前发生。但这与XML、Perl和Python中的带内编码规范具有相同的限制。我被告知实现这样的注释器不会太难,但除了正则表达式和编码之外,我的Java技能很弱。肯定会很有用,对吧?! - tchrist
4
为了完整讨论BOM问题,需要说明:Excel 2003严格要求UTF-8编码的CSV文件包含BOM。否则,多字节字符将无法读取。 - Michael-O
最近我一直在研究Microsoft Excel 2016的行为。如果将.csv文件重命名为.txt,或者新建一个Excel电子表格并从“文本”中添加数据,则数据将由“文本导入向导”加载。显然,这足够聪明,可以识别到它正在接收代码页“65001(UTF-8)”的“文件来源”的数据,如果不是,则可以告诉它。然后您需要告诉它更多的东西。我编写了一个小的Cmd脚本,将带有BOM的数据从一个文件复制到另一个文件,以避免这种情况。 - Robert Carnegie
显示剩余3条评论
9个回答

83
BufferedWriter out = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(...), StandardCharsets.UTF_8));
out.write('\ufeff');
out.write(...);

这段代码正确地将0xEF 0xBB 0xBF写入文件中,这是BOM的UTF-8表示形式。


4
这段代码对平台默认编码敏感。在Windows上,最终文件中可能会写入0x3F。获取BufferedWriter的正确方式是:BufferedWriter out = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(the File), StandardCharsets.UTF_8)) - Julien H. - SonarSource Team

17

如果人们正在使用PrintStream,你需要用一种稍微不同的方式来处理它。虽然Writer可以通过一些魔法将单个字节转换为3个字节,但PrintStream需要单独处理UTF-8 BOM的所有3个字节:


    // Print utf-8 BOM
    PrintStream out = System.out;
    out.write('\ufeef'); // emits 0xef
    out.write('\ufebb'); // emits 0xbb
    out.write('\ufebf'); // emits 0xbf

您也可以直接使用这些十六进制值:

    PrintStream out = System.out;
    out.write(0xef); // emits 0xef
    out.write(0xbb); // emits 0xbb
    out.write(0xbf); // emits 0xbf

13
要以UTF-8编写BOM,需要使用PrintStream.print()而不是PrintStream.write()
此外,如果您想在csv文件中加入BOM,则需要在putNextEntry()之后打印BOM。

所有的PrintStream基本上都存在缺陷,因为它们会丢弃流中可能发生的所有错误,包括I/O错误、文件系统已满、网络中断和编码不匹配等。如果这不是真的,请告诉我如何使它们可靠(因为我想使用它们)。但如果是真的,请解释一下在什么情况下使用抑制正确性问题的输出方法可能是恰当的?这是一个严肃的问题,因为我不明白为什么要设置如此危险。感谢任何见解。 - tchrist
@tchrist - 的确,PrintStreams会抑制错误。但是... 1)它们并没有完全丢弃-您可以检查是否发生了错误。2)有些情况下,您不需要知道错误。一个无可争议的情况是当您将字符发送到写入内存缓冲区的流时。 - Stephen C
@tchrist 我猜,这一切都是由于使用了检查异常。通常,你只需要在任何错误上抛出并感到高兴。你可以通过包装每个调用并添加checkError和有条件地抛出来使现有的PrintStream“安全”。但是关于异常的信息丢失了。所以,是的,PrintStream是一个毫无希望的垃圾。 - maaartinus

11

PrintStream#print

我认为 out.write('\ufeff'); 应该改为调用java.io.PrintStream#print方法,即 out.print('\ufeff');

根据javadocwrite(int) 方法实际上写入一个字节...没有任何字符编码。因此,out.write('\ufeff'); 写入字节 0xff。相比之下,print(char) 方法使用流的编码将字符编码为一个或多个字节,然后写入这些字节。

正如 Unicode 9 规范的第23.8节所述,UTF-8 的 BOM 是 EF BB BF。当在 '\ufeff' 上使用 UTF-8 编码时,会得到这个序列。参见:为什么 UTF-8 BOM 字节 efbbbf 可以被 \ufeff 替换?


在Java中执行编码输出的唯一安全方式不是使用很少见的OutputStreamWriter(OutputStream out,CharsetEncoder enc)构造函数中的带有显式CharsetEncoder参数的那个吗?而且从未使用您在此处推荐的PrintStream - tchrist
1
@tchrist - 1) 不是的。2) 我并没有推荐PrintStream。我只是简单地说明了如何使用OP已经在使用的PrintStream来完成他所要求的操作。3) 在这种情况下,PrintStream应该是安全的,因为它后面跟随其他会导致写入底层流(套接字)并抛出异常(如果前一个PrintStream写操作失败)。 - Stephen C

9

你需要在CSV字符串的开头添加这个

String CSV = "";
byte[] BOM = {(byte) 0xEF,(byte) 0xBB,(byte) 0xBF};
CSV = new String(BOM) + CSV;

这对我很有效。

简单而有效。 - shimatai

2

如果您只想修改同一文件(而不是使用新文件并删除旧文件,因为我曾经遇到了问题)

(涉及)修改相同文件

(即可实现,无需创建新文件或删除旧文件,避免潜在问题)

private void addBOM(File fileInput) throws IOException {
    try (RandomAccessFile file = new RandomAccessFile(fileInput, "rws")) {
        byte[] text = new byte[(int) file.length()];
        file.readFully(text);
        file.seek(0);
        byte[] bom = { (byte) 0xEF, (byte) 0xBB, (byte) 0xBF };
        file.write(bom);
        file.write(text);
    }
}

0
在编程方面,下面是一种简单的方法来将 BOM 标头附加到任何文件上:
private static void appendBOM(File file) throws Exception {
    File bomFile = new File(file + ".bom");
    try (FileOutputStream output = new FileOutputStream(bomFile, true)) {
        byte[] bytes = FileUtils.readFileToByteArray(file);
        output.write('\ufeef'); // emits 0xef
        output.write('\ufebb'); // emits 0xbb
        output.write('\ufebf'); // emits 0xbf
        output.write(bytes);
        output.flush();
    }
    
    file.delete();
    bomFile.renameTo(file);
}

0
在我的情况下,它与以下代码一起工作:
PrintWriter out = new PrintWriter(new File(filePath), "UTF-8");
out.write(csvContent);
out.flush();
out.close();

0
使用 StringBuilder
StringBuilder csv = new StringBuilder();    
csv.append('\ufeff');
csv.append(content);
csv.toString();

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接