Как извлечь текст из PDF-документа с помощью PHP ?
(Я не могу использовать другие инструменты, у меня нет доступа root)
Я нашел некоторые функции, работающие для простого текста, но они не хорошо обрабатывают символы Unicode:
http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html
Загрузите class.pdf2text.php @ https://pastebin.com/dvwySU1a (обновлено 5 апреля 2014 года) или http://www.phpclasses.org/browse/file/31030.html (требуется регистрация)
Код:
include('class.pdf2text.php'); $a = new PDF2Text(); $a->setFilename('filename.pdf'); $a->decodePDF(); echo $a->output();
Класс не работает со всеми pdf-файлами, которые я тестировал, попробуйте, и вам может повезти 🙂
Если вышеуказанное не работает, попробуйте http://pdfparser.org/
Я знаю, что эта тема довольно старая, но эта потребность еще жива. Я прочитал много документов, форум и скрипт и построил новый усовершенствованный, который поддерживает сжатый и несжатый pdf:
https://gist.github.com/smalot/6183152
Надеюсь, что это поможет