我正在一个Laravel 5.4项目中使用“PDF解析器”来获取pdf文件的内容。但是,当我打印出内容时,我得到了一些编码文本,当鼠标悬停在上面时,会显示“5868个二进制或非UTF-8字符”。
这是应该读取文件内容的代码。
$file = $request->file('file');
$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseFile($file);
$scannedText = $pdf->getText();
dd($scannedText);
它会输出类似这样的内容:
x00i\x00n\x00g\x00ª\x00t\x00h\x00i
PHP的
mb_detect_encoding()
函数在"编码类型"设置为"auto"时会返回false。utf8_encode()
也不起作用,所以我知道它不是ISO-8859-1编码。这就是我现在卡住的地方。任何帮助都将不胜感激。
mb_detect_encoding
,结果得到'UTF-8'。这次,我认为问题在于试图转储文件内容。如果我错了,请指正我。 - Karan Singh