Я думаю о создании определенной веб-системы. Он включает в себя множество разных (случайных) людей, загружающих отсканированные документы того, что они написали.
Есть ли способ с открытым исходным кодом PHP, который преобразует эти рукописные тексты в машинный текст?
Я нашел этот вопрос, но хотел бы знать, способен ли он распознавать много случайных и разных людей?
У кого-нибудь есть опыт, чтобы поделиться этим полем?
См. Соответствующий вопрос о SO: распознавание рукописного ввода с помощью простого обучения
Распознавание почерка на основе изображений также известно как распознавание рукописного ввода в автономном режиме .
Если рукописные символы всегда имеют заглавную букву, стиль почтового отделения , ее можно обрабатывать с помощью интеллектуального распознавания символов (ICR) , который основан на изображении.
Разница между автономным (основанным на изображении) и онлайновым (в режиме реального времени) распознаванием заключается в том, что последнее требует, чтобы вы записывали временную метку (положение и скорость) каждого штриха, когда он записывается.
Механизм распознавания на основе изображений может обрабатывать данные в режиме онлайн, преобразуя временные штрихи в изображение. Напротив, онлайновый механизм распознавания не может обрабатывать входные данные на основе изображений. Таким образом, он-лайн распознавание технически проще и доступны проекты с открытым исходным кодом.
Несколько статей в Википедии содержат списки поставщиков программного обеспечения OCR / ICR:
Пример механизма распознавания рукописного ввода в режиме on-line (open-source):
Я сделал ocr из php, используя tesseract-ocr
http://code.google.com/p/tesseract-ocr/
результаты были не такими замечательными, и я сомневаюсь, что он поддерживает почерк, но мне было бы интересно узнать, что сделали другие
Это невозможно, так как ручная запись слишком сильно отличается от того, что компьютерная программа может найти шаблон для распознавания текста там. Вы можете попробовать с OCR, в идеале с библиотекой, хорошо взаимодействующей с PHP, например, через оболочку для стартера. См. Ocrad – OCR GNU .