Как вы находите предмет предложения?

Я новичок в NLP и занимаюсь исследованием того, какой языковой инструментарий я должен использовать, чтобы сделать следующее. Я хотел бы сделать одну из двух вещей, которая выполняет одно и то же:

  1. В основном я хотел бы классифицировать текст, обычно одно предложение, содержащее 15 слов. Хотелось бы классифицировать, говорит ли речь о конкретном предмете.

  2. Есть ли инструмент, который дал предложение, он обнаруживает предмет предложения.

Я использую PHP и Java, но инструментом может быть все, что работает в командной строке Linux

Большое спасибо.

Самый простой способ сделать это – создать набор помеченных данных обучения и использовать его для обучения классификатора. Как работает классификатор, это более сложная проблема – для фильтрации спама и многих других вещей просто просмотр частоты слов работает очень хорошо.

Вот базовый пример: http://openclassroom.stanford.edu/MainFolder/DocumentPage.php?course=MachineLearning&doc=exercises/ex6/ex6.html

Тривиально написать классификатор Наивного Байеса; пакет, такой как MALLET, также будет иметь этот плюс лучшие методы машинного обучения. У Lingpipe тоже будет такой материал.

Вам действительно нужно заботиться о качестве данных и ваших функциях. По качеству данных я имею в виду множество данных без этого множества пограничных случаев, а по функциям я имею в виду, что вы выбираете только слова или комбинации слов (слова ngrams) или функции зависимостей или что-то более сложное. Вам нужен способ создания данных функций, а также на самом деле обучение! В этом смысле Lingpipe хорош, так как вы можете делать токенизацию и все, что в первую очередь, вместо того, чтобы писать свои собственные функции, чтобы сделать это, или же нужно объединить другие инструменты в свой собственный код генерации функций.

Руководство по MALLET можно найти здесь: http://courses.washington.edu/ling570/fei_fall10/11_15_Mallet.pdf

NLTK может решить проблему.

Я нашел ниже веб-сервис api, удобный и с полки для использования …

http://text-processing.com/demo/