Я храню содержимое HTML-сообщений в моей базе данных.
Если я храню две одинаковые письма в моей базе данных, это немного отличается от персонализации (можно сказать, «Привет, Стивен, спасибо вам за подписку …», а другой «Привет, Андрей, спасибо вам за подписку». .. ").
Как я могу сказать, что эти текстовые поля немного отличаются? (возможно, получите процент, говорящий, что они равны 95%).
Хорошая отправная точка для MySQL: http://www.artfulsoftware.com/infotree/queries.php#552
Расстояние Левенштейна – это количество исправлений, необходимых для превращения одной строки в другую. Вероятно, вы могли бы допустить разделение этого расстояния на длину строки, чтобы получить процентные доли.
Для PHP существует встроенная функция Levenshtein: http://www.php.net/manual/en/function.levenshtein.php
Это также может помочь: http://www.php.net/manual/en/function.similar-text.php . Аналогичный_text () возвращает количество совпадающих символов в обеих строках.