如何使用JavaMail处理多部分/可选邮件?

12

我编写了一个应用程序,从收件箱中获取所有电子邮件,过滤包含特定字符串的电子邮件,然后将这些电子邮件放入ArrayList中。

在将电子邮件放入列表后,我对邮件的主题和内容进行了一些处理。这对于没有附件的电子邮件都很好工作。但是当我开始使用带有附件的电子邮件时,它就不再按预期工作了。

这是我的代码:

public void getInhoud(Message msg) throws IOException {
    try {
        cont = msg.getContent();
    } catch (MessagingException ex) {
        Logger.getLogger(ReadMailNew.class.getName()).log(Level.SEVERE, null, ex);
    }
    if (cont instanceof String) {
        String body = (String) cont;


    } else if (cont instanceof Multipart) {
        try {
            Multipart mp = (Multipart) msg.getContent();
            int mp_count = mp.getCount();
            for (int b = 0; b < 1; b++) {
                    dumpPart(mp.getBodyPart(b));
            }
        } catch (Exception ex) {
            System.out.println("Exception arise at get Content");
            ex.printStackTrace();
        }
    }
}

public void dumpPart(Part p) throws Exception {
    email = null;
    String contentType = p.getContentType();
    System.out.println("dumpPart" + contentType);
    InputStream is = p.getInputStream();
    if (!(is instanceof BufferedInputStream)) {
        is = new BufferedInputStream(is);
    }
    int c;
    final StringWriter sw = new StringWriter();
    while ((c = is.read()) != -1) {
        sw.write(c);
    }

    if (!sw.toString().contains("<div>")) {
        mpMessage = sw.toString();
        getReferentie(mpMessage);
    }
}

邮件内容被存储在一个字符串中。

当我尝试读取没有附件的邮件时,这段代码都能正常工作。但是如果我使用带有附件的电子邮件,则该字符串还包含HTML代码甚至包含附件编码。最终,我想存储电子邮件的附件和内容,但我的首要任务是获取不包含任何HTML或附件编码的纯文本。

现在我尝试了一种不同的处理方法来处理不同的部分:

public void getInhoud(Message msg) throws IOException {
    try {
        Object contt = msg.getContent();

        if (contt instanceof Multipart) {
            System.out.println("Met attachment");
            handleMultipart((Multipart) contt);
        } else {
            handlePart(msg);
            System.out.println("Zonder attachment");

        }
    } catch (MessagingException ex) {
        ex.printStackTrace();
    }
}

public static void handleMultipart(Multipart multipart)
        throws MessagingException, IOException {
    for (int i = 0, n = multipart.getCount(); i < n; i++) {
        handlePart(multipart.getBodyPart(i));
        System.out.println("Count "+n);
    }
}

 public static void handlePart(Part part)
        throws MessagingException, IOException {

    String disposition = part.getDisposition();
    String contentType = part.getContentType();
    if (disposition == null) { // When just body
        System.out.println("Null: " + contentType);
        // Check if plain
        if ((contentType.length() >= 10)
                && (contentType.toLowerCase().substring(
                0, 10).equals("text/plain"))) {
            part.writeTo(System.out);
        } else if ((contentType.length() >= 9)
                && (contentType.toLowerCase().substring(
                0, 9).equals("text/html"))) {
            part.writeTo(System.out);
        } else if ((contentType.length() >= 9)
                && (contentType.toLowerCase().substring(
                0, 9).equals("text/html"))) {
            System.out.println("Ook html gevonden");
            part.writeTo(System.out);
        }else{
            System.out.println("Other body: " + contentType);
            part.writeTo(System.out);
        }
    } else if (disposition.equalsIgnoreCase(Part.ATTACHMENT)) {
        System.out.println("Attachment: " + part.getFileName()
                + " : " + contentType);
    } else if (disposition.equalsIgnoreCase(Part.INLINE)) {
        System.out.println("Inline: "
                + part.getFileName()
                + " : " + contentType);
    } else {
        System.out.println("Other: " + disposition);
    }
}

这是从System.out.printlns返回的内容。

Null: multipart/alternative; boundary=047d7b6220720b499504ce3786d7
Other body: multipart/alternative; boundary=047d7b6220720b499504ce3786d7
Content-Type: multipart/alternative; boundary="047d7b6220720b499504ce3786d7"

--047d7b6220720b499504ce3786d7
Content-Type: text/plain; charset="ISO-8859-1"

'Text of the message here in normal text'

--047d7b6220720b499504ce3786d7
Content-Type: text/html; charset="ISO-8859-1"
Content-Transfer-Encoding: quoted-printable

'HTML code of the message'
该方法将电子邮件的普通文本和HTML代码一并返回。我真的不明白为什么会这样,我已经在谷歌上搜索了,但似乎没有其他人遇到过这个问题。
任何帮助都将不胜感激,
谢谢!

1
你是如何创建Message实例的?你使用JavaMail默认实现,哪个版本?在将消息提供给getInhoud例程之前,你是否以任何方式操作消息正文?我刚刚尝试了你的代码示例,它对我起作用了(JM 1.4.5)。 - Andrey Balaguta
有用的提示:如果您想得到针对您问题的具体答案,请尝试提供一个SSCCE(http://sscce.org/)。 - james.garriss
3个回答

26
我发现使用JavaMail库阅读电子邮件比预期的要困难得多。我不怪JavaMail API,而是怪自己对RFC-5322——互联网电子邮件的官方定义理解不够透彻。
作为一个思想实验:考虑一封电子邮件在现实世界中可能变得多么复杂。可以“无限”嵌套消息。每个消息本身都可能有多个附件(二进制或人类可读的文本)。现在想象一下,在解析后,这种结构在JavaMail API中会变得多么复杂。
在遍历JavaMail电子邮件时,以下几点可能有所帮助:
  • MessageBodyPart都实现了Part
  • MimeMessageMimeBodyPart都实现了MimePart
  • 在可能的情况下,将所有内容视为PartMimePart。这将更容易地构建通用遍历方法。
这些Part方法将有助于遍历:
  • String getContentType(): 以MIME类型开头。你可能会想把它当作MIME类型(需要一些剪切/匹配),但最好只在调试器中使用此方法进行检查。
    • 奇怪的是,不能直接提取MIME类型。相反,请使用boolean isMimeType(String)进行匹配。仔细阅读文档,了解强大的通配符,例如"multipart/*"
  • Object getContent(): 可能是instanceof
    • Multipart -- 包含更多Part
      • 转换为Multipart,然后使用int getCount()BodyPart getBodyPart(int)进行从零开始的索引迭代。
        • 注意:BodyPart实现了Part
      • 根据我的经验,Microsoft Exchange服务器定期提供两个正文文本的副本:纯文本和HTML。
        • 要匹配纯文本,请尝试:Part.isMimeType("text/plain")
        • 要匹配HTML,请尝试:Part.isMimeType("text/html")
    • Message(实现了Part)-- 嵌入或附加的电子邮件
    • String(仅正文文本 -- 纯文本或HTML)
      • 请参见上面关于Microsoft Exchange服务器的注释。
    • InputStream(可能是BASE64编码的附件)
  • String getDisposition(): 值可能为null
    • 如果Part.ATTACHMENT.equalsIgnoreCase(getDisposition()),则调用getInputStream()以获取附件的原始字节。
最后,我发现官方Javadocs中排除了com.sun.mail包中的所有内容(可能还有其他内容)。如果您需要这些内容,请直接阅读代码,或通过下载源代码并在项目的mail项目模块中运行mvn javadoc:javadoc生成未经过滤的Javadocs。

1
感谢您的输入!目前对我来说这不再相关,但我能理解它可能会对其他遇到这个问题的人有所帮助。 - Jef
1
Multipart 没有扩展 Part 接口。 - RRM
@RRM:发现得好。已修复和改进。 - kevinarpe


1

在Kevin有益的建议之后,分析您的电子邮件内容Java对象类型与它们的规范名称(或简单名称)相关可能也会很有帮助。例如,看看我现在的收件箱,共有486封邮件中,399封是字符串,87封是MimeMultipart。这表明对于我的典型电子邮件,使用instanceof先剥离字符串的策略最佳。

在这些字符串中,394个是text/plain,5个是text/html。这对大多数人来说并非如此;这反映了我的电子邮件进入这个特定收件箱的情况。

但等等 - 还有更多!!! :-) HTML仍然悄悄地混入其中:在这87个Multipart中,70个是multipart/alternative。不能保证,但其中大多数(如果不是全部)都是TEXT + HTML。

顺便说一下,其他17个多部分邮件中,15个是multipart/mixed,2个是multipart/signed。

我在这个收件箱(和另一个收件箱)中的用例主要是汇总和分析已知的邮件列表内容。我不能忽略任何一条消息,但这种分析有助于使我的处理更加高效。


优秀的实际反馈。各种有效的电子邮件对象多种多样...每个服务器似乎都有自己的偏好。 - kevinarpe

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接