Создание быстрой семантической поисковой системы MySQL для частных статей с нуля

Я работаю над проектом, который будет включать полнотекстовый и семантический поиск статей внутри сайта (если его невозможно комбинировать, пользователь может выбрать любой вариант). Эти статьи основаны на подписке и могут быть найдены только после входа в систему; поэтому они не доступны для внешних поисковых систем или их API.

Я читал о Sphinx для поиска по полнотекстовым ключевым словам (и я намерен реализовать его для этого аспекта), но я не уверен, как это сделать из создания семантической поисковой системы. например, для поиска «президента США» следует перечислить статьи, содержащие ссылки на фактические имена президентов США, например, Джорджа Вашингтона, Билла Клинтона (или Уильяма Джефферсона Клинтона).

У меня есть идеи, что, возможно, какая-то система тегов может использоваться для обозначения различных ключевых слов, например, связывать президента с Джорджем Вашингтоном и президентом с Биллом Клинтоном, но поскольку данные действительно огромны, и многие такие отношения будут существовать, я не знаю, как дальше эта идея.

Пожалуйста, посоветуйте мне, как начать создание семантической поисковой системы (я думаю, Sphinx может обрабатывать полнотекстовый поиск по ключевым словам) с нуля. В противном случае, пожалуйста, сообщите мне о каких-либо интернет-ресурсах или о наличии уже существующего программного обеспечения на любом языке, который я могу интегрировать в свое приложение.

PS Моя база данных по выбору – MySQL (просьба сообщить, что другая система баз данных более подходит для задачи), и я предпочитаю программировать на PHP, но если мне нужно изучить Python или любой другой язык, который будет более эффективен для этой задачи, я будут готовы.

Я уже искал ответы.semanticweb.com

Я бы использовал Apache Solr . Я думаю, что это более гибко, чем Сфинкс. Solr поддерживает полнотекстовый поиск, и я считаю, что есть дополнения для семантической поддержки (например, сирены ). Solr – это серверная версия Lucene.

Solr поддерживает SynonymFilter: http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#SynonymFilter

В этом сообщении обсуждаются некоторые стратегии оптимизации поиска контента http://www.lucidimagination.com/devzone/technical-articles/optimizing-findability-lucene-and-solr

Эта книга может быть полезна для тех, кто читает эту тему. Я только что нашел его на Амазонке.

http://www.amazon.com/E-Librarian-Service-User-Friendly-Libraries-X-media-publishing/dp/3642177425