Возможный дубликат:
Чтение pdf-файлов с помощью php
Здравствуй,
У меня есть большая часть PDF-документов. Я хочу прочитать это, используя скрипт php. Я много искал, но все о создании файлов PDF. Здесь я не хочу создавать pdf-файл, но я хочу его прочитать. Есть ли способ прочитать его php?
-Arun
Чтобы просто получить текст из файла PDF, попробуйте следующее:
– http://davidwalsh.name/read-pdf-doc-file-php
– http://www.webcheatsheet.com/php/reading_clean_text_from_pdf.php (более подробно)
Для более тяжелых решений взгляните на:
– http://www.setasign.de/products/pdf-php-solutions/fpdi/
Вы можете легко прочитать содержимое файла PDF с помощью утилиты командной строки, такой как Pdftotext, которую вы можете вызвать через exec.
Это пример того, что я имею в виду, фактически используя систему
system("pdftotext your.pdf /tmp/txtfile.txt"); $text = file_get_contents("/tmp/txtfile.txt");
РЕДАКТИРОВАТЬ
не знал о синтаксисе тире – это еще лучше:
$content = shell_exec('pdftotext your.pdf -');
Это требует, чтобы pdftotext был установлен на вашем сервере. На сервере CentOS это будет:
yum install xpdf