В настоящее время я изучаю процесс интеллектуального анализа данных, сравнения текста и нашел это: https://en.wikipedia.org/wiki/Cosine_similarity .
Поскольку я успешно реализовал этот алгоритм для сравнения двух строк, я решил попробовать еще одну сложную задачу. Я выполнил итерацию над моей БД, которая содержит около 250 тыс. Документов и сравнила один случайный документ из БД со всеми документами в этой БД.
Чтобы сравнить все эти предметы, время было занято: 316.35898590088 сек, то есть, -> 5 минут, чтобы сравнить все 250 тыс. Документов!
Из-за этих результатов возникло много проблем, и я не хочу задавать некоторые предложения. Для ясности в первую очередь я опишу некоторые детали, которые могут быть полезны.
Вопросов