有没有一种在nodejs中提取PDF文本的方法,且不需要任何操作系统依赖项(例如pdf2text或Windows上的xpdf)?我找不到任何“原生”的nodejs pdf软件包。它们总是在现有的操作系统命令之上进行封装/实用程序。
经过一些工作,我终于得到了一个可靠的函数,使用https://github.com/mozilla/pdfjs-dist从PDF读取文本。
要使其工作,首先在命令行中进行npm安装:
npm i pdfjs-dist
然后创建一个具有以下代码的文件(在本例中,我将文件命名为“pdfExport.js”):
const pdfjsLib = require("pdfjs-dist");
async function GetTextFromPDF(path) {
let doc = await pdfjsLib.getDocument(path).promise;
let page1 = await doc.getPage(1);
let content = await page1.getTextContent();
let strings = content.items.map(function(item) {
return item.str;
});
return strings;
}
module.exports = { GetTextFromPDF }
const pdfExport = require('./pdfExport');
pdfExport.GetTextFromPDF('./sample.pdf').then(data => console.log(data));
'Texts':一个文本块数组,包括位置、实际文本和样式信息: 'x' 和 'y': 相对坐标用于定位 'clr':颜色词典中的颜色索引,与'Fill'对象中的'clr'字段相同。如果能在颜色词典中找到颜色,则将'oc'字段添加到该字段中作为“原始颜色”值。 'A':文本对齐方式,包括: left center right 'R':文本运行的数组,每个文本运行对象都有两个主要字段: 'T':实际文本 'S':来自样式词典的样式索引。有关“样式词典”的更多信息,请参见“字典参考”部分
如果有人在未来遇到这个问题,我想发表一下我的看法。 我曾经遇到这个问题,花了几个小时研究了NPM上的所有PDF库。我的要求是必须在AWS Lambda上运行,因此不能依赖操作系统相关性。
下面的代码修改自另一个stackoverflow答案(我目前找不到)。唯一的区别是我们导入与 Node >= 12 兼容的 ES5 版本。如果只导入pdfjs-dist,会出现"Readable Stream is not defined"的错误。希望对你有所帮助!
import * as pdfjslib from 'pdfjs-dist/es5/build/pdf.js';
export default class Pdf {
public static async getPageText(pdf: any, pageNo: number) {
const page = await pdf.getPage(pageNo);
const tokenizedText = await page.getTextContent();
const pageText = tokenizedText.items.map((token: any) => token.str).join('');
return pageText;
}
public static async getPDFText(source: any): Promise<string> {
const pdf = await pdfjslib.getDocument(source).promise;
const maxPages = pdf.numPages;
const pageTextPromises = [];
for (let pageNo = 1; pageNo <= maxPages; pageNo += 1) {
pageTextPromises.push(Pdf.getPageText(pdf, pageNo));
}
const pageTexts = await Promise.all(pageTextPromises);
return pageTexts.join(' ');
}
}
用法
const fileBuffer = fs.readFile('sample.pdf');
const pdfText = await Pdf.getPDFText(fileBuffer);
对于我来说,使用14.20.1版本的node和"pdf-parse": "^1.1.1"
很有效。
你可以使用以下命令进行安装:
yarn add pdf-parse
这是将PDF文件转换为文本的主要函数。
const path = require('path');
const fs = require('fs');
const pdf = require('pdf-parse');
const assert = require('assert');
const extractText = async (pathStr) => {
assert (fs.existsSync(pathStr), `Path does not exist ${pathStr}`)
const pdfFile = path.resolve(pathStr)
const dataBuffer = fs.readFileSync(pdfFile);
const data = await pdf(dataBuffer)
return data.text
}
module.exports = {
extractText
}
const { extractText } = require('../api/lighthouse/lib/pdfExtraction')
extractText('./data/CoreDeveloper-v5.1.4.pdf').then(t => console.log(t))
你可以直接使用PDF.js而不是使用提议的PDF2Json(https://github.com/mozilla/pdfjs-dist)。这样做的好处是你不依赖于拥有PDF2Json和更新PDF.js基础的人的谦虚。
Path2D
和/或ReadableStream
);请改用“legacy”构建。 - Abhay