Я ищу лучший PHP-способ для сканирования множества текстовых записей (объявлений) и вытаскивания ключевых слов – кто-нибудь знает о пометке Part-of-Speech? Есть ли способ PHP-ish сделать это?
Я просматриваю много онлайн-объявлений, но ни один из них не имеет категорий! Чтобы ускорить процесс категоризации, я хочу установить теггер Part of of Speech (http://en.wikipedia.org/wiki/Part-of-speech_tagging). В принципе, это классные алгоритмические пакеты для анализа текста, которые могут рассказать мне, какие слова являются существительными (например, «Квартира», «Автомобиль», «Собака» и т. Д.) И какие слова являются нежелательными, например, если, и, и т. Д. , НО…
Существуют онлайн-сервисы по пометке – один от Yahoo, который, кажется, становится меньше любви в наши дни, а другой – XEROX. Тем не менее, я действительно заинтересован в установке моей собственной библиотеки / программного обеспечения и подключении ее к моему веб-приложению.
Кто-нибудь знает хороший способ установить теги POS, которые работают с веб-приложением PHP? Я умираю, чтобы понять это, поэтому любая информация, совет или другая мудрость, которую вы имеете, действительно оценены!
Вот список LOT разных ПОС: http://www-nlp.stanford.edu/links/statnlp.html#Taggers (смотрите под «POS Taggers»)
Спасибо, что прочитали это!
Ян Барбер реализовал Brill Tagger в PHP, который он представляет на своем сайте PHP / ir, где он описывает его использование для анализа твитов.
Да, я сейчас использую тег Brill. Это работает в некоторой степени, хотя я бы хотел выяснить, как внести свой вклад в его набор правил. Он допускает множество ошибок, но при этом дает около 85% точных данных. Моя единственная проблема в том, что она МЕДЛЕННАЯ!
Правильно, где это происходит, слова с двойным смыслом – однако, есть много соглашений, которые не учтены, например, контрастные предложения союзов, например, я могу сказать что-то отрицательное о ком-то, но после запятой скажите что-то, что отменит полярность к положительному или нет. Компьютер не может видеть идиомы.