У меня есть PDF-файлы, которые в основном просто форматируют текст, и я хочу разобрать текст с помощью PHP. Я понимаю, что PDF-файл является двоичным, поэтому мне нужна утилита или библиотека, чтобы преобразовать ее в текст.
Любые рекомендации?
Программное обеспечение сторонних разработчиков может выгрузить текстовое содержимое PDF-файла, например:
Я закончил использование XPDF (который включает pdftotext). Это отлично работает, и я использую его в производстве для извлечения текста из миллионов PDF-файлов, загружаемых на наши серверы.
Ниже приведен процесс установки для Linux CentOS:
Вы не можете сделать это с помощью file_get_contents()
потому что файлы PDF содержат только двоичные данные (без обычного текста). Чтобы прочитать / изменить PDF-файл, вы можете использовать некоторые сторонние библиотеки. Взгляни на:
И не забывайте