Чтобы предисловие к этому, я знаю, что в разных местах есть дискуссии об этом. Половина того, что я прочитал, устарела, глючит или просто не связана с моей ситуацией.
Вот почему я привожу его в сообщество, которое, как я знаю, будет иметь ответы.
Вопрос: У меня есть каталог (он-лайн идеально) около 70 000 страниц в документах PDF (документы варьируются от 20 до 100 страниц, до 70 000 страниц).
Я ищу метод, сценарий или идею для самого простого способа поиска этих PDF-файлов для продуктов. Все файлы PDF имеют текстовый слой, созданный OCR в Acrobat.
Любые идеи , будь то сложные или изобретательные, более чем приветствуются.