Вычислительные тенденции

Скажем, я собираю твиты из твиттера на основе множества критериев и сохраняю эти твиты в локальной базе данных mysql. Я хочу иметь возможность обсуждать темы, связанные с компьютером, например твиттер, который может содержать от 1 до 3 слов.

Можно ли написать скрипт, чтобы сделать что-то вроде этого PHP и mysql?

Я нашел ответ на вопрос, как вычислить, какие термины «горячие», как только вы сможете получить количество терминов, но я застрял в первой части. Как хранить данные в базе данных, как я могу подсчитать частоту терминов в базе данных длиной 1-3 слова?

трендовая тема получения от меня:
1. выберите твиты
2. Разделите каждый твиты пробелом на n-грамму (до 3 грамм, если вы хотите 3 длины слов)
3. Отфильтруйте каждый массив из url, @username, общих слов и барахлов
4. подсчет всех уникальных ключевых слов / фраза
5. Отключить ненужное слово / фразу

да, вы можете сделать это на php & mysql;)

Как насчет разложения ваших твитов сначала в однотонных токенах и вычислять для каждого слова его количество вхождений? После того, как вы их получите, вы можете разложить все два токена слова, рассчитать количество вхождений и, наконец, сделать то же самое со всеми тремя токенами.

Вы также можете добавить какой-то словарь слов, которые вы не хотите считать

Вам нужно либо

  1. классификация документов, или ..
  2. автоматическая маркировка

Вероятно, второй. И только тогда вы сможете посчитать их популярность во времени.

Или сделайте противоположное от Dominik и сохраните список фраз, которые вы хотите сопоставить, пробелы и все. Напишите их как строки регулярных выражений. Для каждой строки в базе данных (файл, таблица sql, что угодно), обрабатывать регулярное выражение, найти счетчик.

Это зависит от того, каким образом вы хотите сделать это тривиально: все – то, что является общим, тем самым обнаруживая, что действительно тренда, или задайте поиск фразы. В одном случае вы найдете много, что может вас не заинтересовать, и вам понадобится обширный список блокировок – в другом случае вам понадобится огромный белый список.

Чтобы выйти за рамки этого, вам понадобятся инструменты обработки естественного языка, чтобы определить смысл сказанного.