Intereting Posts

извлечение содержимого из pdf с помощью PHP

Не могли бы вы рассказать мне, как извлечь контент из PDF-документа с помощью PHP? Форматирование – главная проблема, стоящая здесь. Поэтому дайте мне знать, если есть способы извлечь контент в том же формате и отобразить его в текстовом редакторе онлайн.

благодаря

Насколько я вижу, невозможно преобразовать PDF в редактируемый HTML с помощью PHP на лету, сохраняя при этом форматирование. Существует множество приложений для настольных компьютеров, которые пытаются извлечь данные из PDF-файлов, иногда с более чем иногда, а иногда и менее надежными результатами. Я бы сказал, что на данный момент это нереально, и все, что вы можете сделать, это извлечь простой текст с помощью XPDF или других инструментов командной строки.

Возможно, это отличается от нового формата XML на основе PDF, но я пока ничего не знаю об этом.

Не стесняйтесь, чтобы доказать, что я ошибаюсь, конечно, я был бы очень заинтересован, если бы было решение.

Взгляните на XPDF

Я полагаю, вы могли бы сделать

$text = shell_exec("pdftotext $pdffile"); 

Что касается отображения его в редакторе? Ну, какой редактор? Чтобы сохранить некоторый тип информации о форматировании и, предположив, что веб-редактор означает HTML-редактор, вы можете преобразовать его в HTML. Возможно, есть и другие инструменты, но поскольку я использую xpdf, я наткнулся на этот конвертер, основанный на xpdf.

Основное использование

 pdftohtml -noframes -c test.pdf test.html 

Чтобы попасть в ваш любимый редактор

 echo file_get_contents('test.html'); 

Возможно, вам придется обернуть вещи внутри функций / классов PHP. И вы можете добавить меры безопасности и еще много чего.