Инструменты программирования NLP с использованием PHP?

С тех пор, как появились большие веб-приложения, поиск данных (и их быстрое и точное) стал одной из самых важных проблем в веб-приложениях. Некоторое время я работал с Lucent.NET , который представляет собой порт C # проекта Lucene .

Я также работаю с использованием PHP с использованием API Lucene от Zend Framework , что подводит меня к моему вопросу. В большинстве случаев для обеспечения хорошего индексирования нам нужно выполнить некоторые инструменты NLP, такие как токенизация , лемматизация и многое другое, возникает вопрос:

Знаете ли вы о какой-либо хорошей платформе / инструментах программирования NLP с использованием PHP?

PS: Я очень хорошо знаком с Zend API для Lucene, но правильно индексировать данные не просто для хранения и использования в Lucene, вам нужно выполнить некоторые дополнительные задачи, как и выше.

Я бы посоветовал вам взглянуть на Solr , что является лучшей практикой Lucene. Solr использует API на основе REST, который также имеет очень хороший PHP-клиент . Это позволит вам использовать мощность Lucene без необходимости выполнять какое-либо низкоуровневое программирование, чтобы получить мощность NLP, которую вы хотите. Кроме того, вы, вероятно, захотите захватить версию Trunk для Solr, поскольку разработка NLP очень активна прямо сейчас, и новые возможности добавляются каждый день.

Zend имеет полный порт lucene для PHP. См. Документы здесь .

  • У Lucene есть токенизаторы
  • У Lucene есть портер-стример
  • У Луценки есть снежок
  • Lucene может связать с wordnet

Похоже, вы ищете тот же материал, что и googled несколько месяцев назад: D … Я запускаю проект на основе php / zend с помощью Solr (через php-solr-client lib), и до сих пор я ничего не нашел в php для продвинутого НЛП. Для основных вещей, как все упоминают, вы можете уйти с Solr (сужение, облака тегов / фраза тегов облака, токенизация и т. Д.), И есть несколько базовых, но полезных текстовых библиотек php (там нет ничего реально, лучше полагаться на Solr) … но если вы ищете более алгоритмический / семантический / чувственный анализ НЛП, я предлагаю вам немного переместиться с PHP и перейти на Java, так как есть больше библиотек, которые могут помочь вам в этой области (например, OpenNLP ). В случае, если те, которые вы искали, являются тем, что вы ищете, возможно, вам захочется взглянуть на Mahout:

http://www.lucidimagination.com/blog/2010/03/16/integrating-apache-mahout-with-apache-lucene-and-solr-part-i-of-3/