Преобразование PDF в строку

Как читать PDF-файл и помещать содержимое в строку? Использование языка PHP.

Вы можете найти этот учебник полезным: http://www.webcheatsheet.com/php/reading_clean_text_from_pdf.php

Вы можете использовать что-то вроде pdftotext, который поставляется с пакетом Xpdf на linux. Затем команда popen может использоваться для вывода вывода pdftotext в строку:

 $mystring = ""; $fd = popen("/usr/bin/pdftotext blah.pdf","r"); if ($fd) { while (($myline = fgets($fd)) !== false) { $mystring .= $myline; } } 

Нашел этот действительно классный класс! Кроме того, вы можете добавить функциональность, соответствующую вашим потребностям.

  • PDF2Text – Pastebin

Вероятно, это поможет вам добавить функциональность:

Если это не сработает, проверьте, можете ли вы выделить / пометить свой текст при открытии в Adobe Reader (если вы не можете, текст в вашем файле, вероятно, будет сохранен как геометрические кривые), проверьте также кодировку.

Установите APACHE-TIKA на свой сервер. APACHE-TIKA поддерживает более чем pdf-файлы. Руководство по установке: http://www.acquia.com/blog/use-apache-solr-search-files

и окончательный код прост:

 $string = ""; $fd = popen("java -jar yourpathtotika/tika-app-1.3.jar -t yourpathtopdf/sample.pdf","r"); while (!feof($fd)) { $buffer = fgets($fd, 4096); $string .= $buffer; } echo $string; 

Вы можете использовать класс PHP, который доступен здесь:

http://www.pdftotext.eu

Это текстовый экстрактор PDF с открытым достоянием, полностью написанный на чистом PHP, что означает, что вам не нужно полагаться на внешние команды. Он обеспечивает простой интерфейс для извлечения текста:

 include ( 'PdfToText.phpclass' ) ; $pdf = new PdfToText ( 'mysample.pdf' ) ; echo "PDF contents are : " . $pdf -> Text . "\n" ;