在Java中读取多页Tiff图像并写入PDF

3
我正在尝试使用PDFBox将多页tiff转换为pdf,但一直没有成功。由于apache imaging-commons不是一个稳定版本,因此我无法在公司中使用它。 问题:无法读取多页tiff并将其写入pdf。 目前的解决方案:只有第一页被写入并保存到pdf中。当tiff只有一页时,它可以工作。
以下是代码:
    PDDocument doc = new PDDocument();
    log.info("Read Image");

    log.info("Process Image parts");

    //Get the number of pages
    int pages = 0;
    try(ImageInputStream imageInputStream = ImageIO.createImageInputStream(new File("src/main/resources/output/testpdf.tiff"))) {
        if (imageInputStream != null && imageInputStream.length() != 0) {
            Iterator<ImageReader> iteratorIO = ImageIO.getImageReaders(imageInputStream);
            if (iteratorIO != null && iteratorIO.hasNext()) {
                ImageReader reader = iteratorIO.next();
                reader.setInput(imageInputStream);
                pages = reader.getNumImages(true);
                log.info("Number of pages in the tiff is " + pages);

            }
        }
    }

//需要为不同页面添加阅读器吗?

        for (int i=0; i<pages; i++) {

        BufferedImage bimage = ImageIO.read(file);

        PDPage page = new PDPage();
        doc.addPage(page);
        PDPageContentStream contentStream = new PDPageContentStream(doc, page);
        try {
            // the .08F can be tweaked. Go up for better quality,
            // but the size of the PDF will increase
            PDImageXObject image = JPEGFactory.createFromImage(doc, bimage, 0.08f);
            Dimension scaledDim = getScaledDimension(new Dimension(image.getWidth(), image.getHeight()),
                    new Dimension((int) page.getMediaBox().getWidth(), (int) page.getMediaBox().getHeight()));
            contentStream.drawImage(image, 1, 1, scaledDim.width, scaledDim.height);
        } finally {
            contentStream.close();
        }
    }

    doc.save("src/main/resources/output/testpdf.pdf");
    doc.close();

我需要自己编写一个ImageIO没有提供的阅读器吗?

或者

我需要将tiff多页文件拆分为单独的页面,然后写入pdf吗?

我在图像处理方面没有太多经验,但是非常欣赏ImageIO在转换过程中提供的质量水平!

谢谢


请尝试使用CCITTFactory.createFromFile(PDDocument document, File file, int number)函数。 - Tilman Hausherr
你目前正在进行的操作(将其压缩为JPEG)是一个不好的主意,因为这种压缩是有损的。这在大多数情况下适用于照片,而不适用于文本扫描。要么使用CCITTFactory,要么将TIFF图像读入BufferedImages(参见https://dev59.com/kGMm5IYBdhLWcg3wO9Aq),然后使用LosslessFactory。 - Tilman Hausherr
@TilmanHausherr 使用CCITTFactory.createFromFile(PDDocument document,File file,int number)有助于解决阻塞问题。 谢谢。 - Abhilash Muthuraj
3个回答

8
尝试这个,你需要PDFBox jar和sun.jai.codec jar。
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.util.Iterator;

import javax.imageio.ImageIO;
import javax.imageio.ImageReader;
import javax.imageio.stream.ImageInputStream;

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.PDPageContentStream;
import org.apache.pdfbox.pdmodel.graphics.image.LosslessFactory;
import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject;

import com.sun.media.jai.codec.FileSeekableStream;
import com.sun.media.jai.codec.ImageCodec;
import com.sun.media.jai.codec.ImageDecoder;
import com.sun.media.jai.codec.SeekableStream;
import com.sun.media.jai.codec.TIFFDecodeParam;

public class FinalTtoP {
public static void main(String args[]) throws IOException
{
    PDDocument document=new PDDocument();
    File file = new File("C:/nn.tif"); //Enter Tiff file path

    ImageInputStream isb = ImageIO.createImageInputStream(file);


    Iterator<ImageReader> iterator = ImageIO.getImageReaders(isb);
    if (iterator == null || !iterator.hasNext()) 
    {
      throw new IOException("Image file format not supported by ImageIO: ");
    }

    ImageReader reader = (ImageReader) iterator.next();
    iterator = null;
    reader.setInput(isb);

    int nbPages = reader.getNumImages(true);


    System.out.println(nbPages);


    for(int p=0;p<nbPages;p++)
    {
      BufferedImage bufferedImage = reader.read(p);

      PDPage page = new PDPage();
      document.addPage(page);

      PDImageXObject i = LosslessFactory.createFromImage(document, bufferedImage);

      PDPageContentStream content =new PDPageContentStream(document, page);
      content.drawImage(i, 0,0 ,page.getMediaBox().getWidth(),page.getMediaBox().getHeight());

      content.close();
    }
    document.save("C:/nnnnm.pdf"); //Enter path to save your file with .pdf extension
    document.close();
}

}

1
你在哪里使用com.sun.media.jai.codec jar文件?我看到了所有的导入语句,但是它们在代码中从未被使用过。 - anand
当我运行时,我遇到了这个异常:"Image file format not supported by ImageIO:"。可能是因为我正在使用Java 8,而这段代码似乎只能在Java 9及以上版本中工作。有没有其他的替代方案?我还尝试了下面的链接,但也没有成功。它可以将tiff转换为pdf,但是当尝试打开PDF时会出现"Insufficient data for an image"错误 - http://www.docjar.com/html/api/org/apache/pdfbox/examples/pdmodel/ImageToPDF.java.html - Sanket Mehta
这个链接对我有用。我成功地能够将tif文件转换为pdf。- http://www.paulzepernick.com/java/java-apache-pdfbox-convert-multipage-tiff-to-pdf/ - Sanket Mehta
之前我遇到了一些异常,比如"ImageIO不支持的图像文件格式"、"图像数据不足"、"CCITTFactory.createFromRandomAccess的版本已过时"、"不支持FillOrder 2"等等。即使我尝试使用iText(http://www.docjar.com/html/api/org/apache/pdfbox/examples/pdmodel/ImageToPDF.java.html),但它会截断tiff内容并且转换不正确。不过这个链接帮助了我 - http://www.paulzepernick.com/java/java-apache-pdfbox-convert-multipage-tiff-to-pdf/。 - Sanket Mehta
我刚刚在这里发布了代码实现 - https://stackoverflow.com/a/63265241/2798816。如果有人想参考的话。 - Sanket Mehta

1

参考这段代码,它可以提高速度,但如果仍然很慢,则需要使用itext。

public static byte[] convertTiffToPdf(File tiffFile) throws IOException {

    ByteArrayOutputStream outStream  = null;
    PDDocument document = null;
    ImageInputStream imgInputStream = null;
    try {

        outStream = new ByteArrayOutputStream();

        document = new PDDocument();
        PDRectangle pageSize = PDRectangle.LETTER;

        int noOfPages = 0;

        imgInputStream = ImageIO.createImageInputStream(tiffFile);

        Iterator<ImageReader> iterator = ImageIO.getImageReaders(imgInputStream);
        if (iterator == null || !iterator.hasNext()) {
            throw new IOException("Image file format not supported by ImageIO: ");
        }
        ImageReader reader = (ImageReader) iterator.next();
        iterator = null;
        reader.setInput(imgInputStream);

        noOfPages = reader.getNumImages(true);
        
        
        for (int i = 0; i < noOfPages; i++) {
            PDPageContentStream content = null;
            try {
            BufferedImage bufferedImage = reader.read(i);

            PDPage page = new PDPage(pageSize);
            document.addPage(page);

            // PDImageXObject imgObject = LosslessFactory.createFromImage(document, bufferedImage); //Commented for PR 1028
            PDImageXObject imgObject = CCITTFactory.createFromFile(document, tiffFile, i); //PR 1028 
            
            //PDImageXObject imgObject = JPEGFactory.createFromImage(document, bufferedImage);

            content = new PDPageContentStream(document, page);
            content.drawImage(imgObject, 0, 0, pageSize.getWidth(), pageSize.getHeight());
            
            
            } catch(Exception e) {
                e.printStackTrace();
            } finally {
                content.close();
            }
        }

        document.save(outStream);
        byte[] fileBytes = outStream.toByteArray();

        return fileBytes;
    } finally {
        if (document != null) {
            document.close();
        }
        if (imgInputStream != null) {
            imgInputStream.close();
        }
        if (outStream != null) {
            outStream.close();
        }
    }
}

1
尽管没有使用结果,但通过调用reader.read(i)并不会提高速度。 - Tilman Hausherr

0

你可以使用CCITTFactory.createFromFile(PDDocument document, File file, int number)方法来处理大多数双色tiff文件。如果这个方法不适用(因为tiff文件是分块的或者是彩色的),那么可以将每个页面读入BufferedImage对象中(参见here),然后使用LosslessFactory.createFromImage(PDDocument document, BufferedImage image)方法进行处理。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接