Косинус-сходство на больших наборах данных
В настоящее время я изучаю процесс интеллектуального анализа данных, сравнения текста и нашел это: https://en.wikipedia.org/wiki/Cosine_similarity . Поскольку я успешно реализовал этот алгоритм для сравнения двух строк, я решил попробовать еще одну сложную задачу. Я выполнил итерацию над моей БД, которая содержит около 250 тыс. Документов и сравнила один случайный документ из БД со всеми документами […]