Я ищу, чтобы построить поисковую систему в реальном времени. Примерно 500 000 ежедневных обновлений в потенциально 50 000 списках. Данные, содержащиеся в чистых (ish) CSV, – должны удалять символы, кодировать utf, обычно. Более 50 полей данных (30 изображений, различные спецификации свойств и т. Д.)
У меня много проблем с Drupal7 и Joomla не справляется с этим. Это просто импорт данных.
Я хочу, чтобы solr индексировал данные и служил поисковой системой. У меня есть несколько вопросов.
Из-за трудностей с данными, похоже, я могу просто избавиться от множества осложнений, пытаясь выяснить внутреннюю работу D7 / Joomla / любых других cms и просто добавить несколько простых php-файлов в качестве интерфейса.
Мне не нужно ничего необычного, он собирался использовать базовый шаблон drupal для этого проекта.
Мне нужна скорость, надежность и отличные результаты поиска.
ИМХО должно быть возможно использовать SOLR исключительно для вашей цели. Количество 50000 списков не очень много для SOLR даже для одного сервера, но 500000 обновлений за 10 часов, которые я предлагаю, действительно много. Поскольку у вас будет около 50000 обновлений в час, что эквивалентно полному переиндексу в час.
Мы также используем SOLR для нашего предприятия и с чем-то около 40-120 полей. 40000 элементам требуется около 5 минут для полной индексации. Если вы хотите использовать autowarm caches, вам нужно добавить, возможно, несколько минут на это.
Насколько я вижу, ваша проблема будет небольшим периодом обновления. Если вы хотите обновлять отдельные документы вместо всех 50000 списков один раз в час, ваш solr не может использовать кеширование или вам придется использовать несколько серверов solr. (Возможно, для solr 4.0 вы даже можете подумать о масштабировании своего аппаратного сервера solr, но я подозреваю, что 3.x будет иметь какие-то преимущества от этого). Использование кешей не может привести к замедлению производительности поиска, но это не обязательно.
Поскольку SOLR предлагает вашу функциональность динамических полей, вы можете добавлять разные структуры для каждого документа. Это должно соответствовать вашим требованиям к различным свойствам.