Intereting Posts
Вводит ли пользователь вход в контроллер или модель? APNS не работает с Adhoc build Как получить доступ к каталогу index.php без завершающей косой черты И не получить 301 перенаправление Как отправить данные формата FLV в byteArray с помощью URLloader в php-скрипт? Почему PDO :: lastInsertId возвращает 0? Как скрыть конкретный URL страницы веб-сайта из поисковых систем? Необлученное сообщение об ошибке «PDOException» «недопустимое имя источника данных» Как включить генерируемые страницы CodeIgniter? Как установить внутренний указатель Arrays на определенную позицию? PHP / XML Yii: Настроить результаты CAutoComplete Может ли PHP «писать» или «копировать» на удаленном удаленном ресурсе, но не «отключать» или «переименовывать» («Доступ запрещен») Страница магазина Woocommerce как основная страница программы PHP-переписывание URL-адресов с использованием htaccess iphone SDK: Загрузить изображение с iphone на сервер php, отправить пустой файл? (код примера кода внутри) Производительность RedBean ORM

Преобразуйте в PDF / A и проверьте соответствие Linux

Я работаю над онлайн-порталом, где исследователи могут загружать свои исследовательские работы. Одним из требований является то, что все PDF-файлы хранятся в формате PDF / A. Поскольку я не могу полагаться на пользователей для создания документов PDF / A, мне нужен инструмент для проверки и преобразования стандартных PDF-файлов в формат PDF / A.

Какой из лучших инструментов вы знаете?

  • Цена
  • Качественный
  • скорость
  • Доступные API-интерфейсы

Предпочитаются инструменты с открытым исходным кодом, но поиск не выявил. iText может создавать PDF / a, но конвертировать нелегко, так как вам нужно прочитать каждую страницу и скопировать ее в новый документ, потеряв все закладки и аннотации в этом процессе. (По крайней мере, насколько я знаю, если вы знаете о простом решении, дайте мне знать).

API должны быть доступны либо для PHP, либо для Java, либо для командной строки. Пожалуйста, не указывайте ни GUI-only, ни Online-only решения.

Я не уверен, что все ваши цели могут быть удовлетворены одновременно. История вокруг PDF / A намного сложнее, чем преобразования формата, такие как tiff to png.

  • Базовый формат PDF 1.4: что делать с документами с более высокими версиями, которые используют функции из этих более высоких версий? Информация может быть потеряна.
  • В файлах PDF / A-1a и 1b метаданные в формате XMP / RDF являются обязательными. Если исходный документ без метаданных, вам нужно его получить откуда- нибудь и добавить его. По крайней мере, iText может это сделать.
  • Есть много мелких деталей, чтобы получить право, от внедрения шрифтов, чтобы убедиться, что присутствуют пробелы, а не только команды горизонтального перемещения.

Подводя итог: я думаю, что вам лучше разместить какую-то или всю ответственность за соблюдение производителями PDF-файлов. Конечно, это не значит, что вы не можете им помочь: если вы выясните, какие инструменты большинство используют для создания своих документов, вы можете указать документацию о PDF / A и конкретных инструментах. (как немного экстремальный пример такой документации, посмотрите на это )

Удачи вам в ваших усилиях.

Я работал во Французской национальной библиотеке, чтобы создать архивную систему, которая делала такие вещи. Как большинство из десяти лучших библиотек в мире, мы использовали JHOVE для распознавания форматов файлов.

JHOVE может определить, являются ли файлы PDF / A или нет, и может даже подтвердить их. Он также знает 7 других видов PDF, см. Подробности .

JHOVE является открытым исходным кодом, он поддерживается JSTOR и Библиотекой Гарвардского университета. Он довольно прост в использовании .

Для части идентификации вы можете попробовать инструмент Droid (идентификация объекта цифровой записи), который обеспечивает доступ к техническому реестру Pronom (который содержит PDF / A ).

Проект API Open Office может быть тем, что вы ищете. Начиная с версии 2.4, Open Office поддерживает документы PDF / a. Вот пример кода с сайта о том, как конвертировать документы, этот пример находится на Java.

Я не уверен в документах PDF /, но вы посмотрели на jodconverter? Он может конвертировать много разных форматов для вас, и он является открытым исходным кодом. Мы используем его довольно широко в нашем проекте.

http://www.artofsolving.com/opensource/jodconverter