С тех пор, как появились большие веб-приложения, поиск данных (и их быстрое и точное) стал одной из самых важных проблем в веб-приложениях. Некоторое время я работал с Lucent.NET , который представляет собой порт C # проекта Lucene .
Я также работаю с использованием PHP с использованием API Lucene от Zend Framework , что подводит меня к моему вопросу. В большинстве случаев для обеспечения хорошего индексирования нам нужно выполнить некоторые инструменты NLP, такие как токенизация , лемматизация и многое другое, возникает вопрос:
Знаете ли вы о какой-либо хорошей платформе / инструментах программирования NLP с использованием PHP?
PS: Я очень хорошо знаком с Zend API для Lucene, но правильно индексировать данные не просто для хранения и использования в Lucene, вам нужно выполнить некоторые дополнительные задачи, как и выше.
Я бы посоветовал вам взглянуть на Solr , что является лучшей практикой Lucene. Solr использует API на основе REST, который также имеет очень хороший PHP-клиент . Это позволит вам использовать мощность Lucene без необходимости выполнять какое-либо низкоуровневое программирование, чтобы получить мощность NLP, которую вы хотите. Кроме того, вы, вероятно, захотите захватить версию Trunk для Solr, поскольку разработка NLP очень активна прямо сейчас, и новые возможности добавляются каждый день.
Zend имеет полный порт lucene для PHP. См. Документы здесь .
Похоже, вы ищете тот же материал, что и googled несколько месяцев назад: D … Я запускаю проект на основе php / zend с помощью Solr (через php-solr-client lib), и до сих пор я ничего не нашел в php для продвинутого НЛП. Для основных вещей, как все упоминают, вы можете уйти с Solr (сужение, облака тегов / фраза тегов облака, токенизация и т. Д.), И есть несколько базовых, но полезных текстовых библиотек php (там нет ничего реально, лучше полагаться на Solr) … но если вы ищете более алгоритмический / семантический / чувственный анализ НЛП, я предлагаю вам немного переместиться с PHP и перейти на Java, так как есть больше библиотек, которые могут помочь вам в этой области (например, OpenNLP ). В случае, если те, которые вы искали, являются тем, что вы ищете, возможно, вам захочется взглянуть на Mahout: