Я управляю небольшим личным сайтом личных объявлений. Люди публикуют объявления, а затем другие люди отвечают на них, что отправляет электронное письмо первому создателю объявления, в котором говорится, что кто-то заинтересован и дает им контактную информацию для этого заинтересованного лица.
В последнее время появился какой-то странный спам. Люди получают бессмысленные ответы на свои объявления. Вот пример одного:
Name: xkauwvyr Reply: vRYmbI <a href="http://rypmoxdkfblf.com/">rypmoxdkfblf</a>, url=http://pnjlwvhizwbq.com/]pnjlwvhizwbq[/url], [link=http://hmenwoujxrfv.com/]hmenwoujxrfv[/link], http://ogsekuhoyeud.com/
Они различаются по длине и композиции, но все они выглядят примерно так. Первая идея, которую я имел, – просто выбросить любой ответ, содержащий строку «a href». Но это меня заинтересовало более надежным методом предотвращения бессмыслицы, возможно, глядя на каждое слово, и если определенный процент не находится в словаре, бросьте этот ответ. Что мне делать?
Кроме того, является ли это спамом только какая-то задница, играющая трюк на моем веб-сайте, или это что-то более злонамеренное?
один трюк, который используют многие разработчики, – это скрытые поля медовых гор в ваших формах. как правило, спам-боты заполнят все поля или, по крайней мере, считают, что они нужны. так что вы делаете, вносите ввод с именем телефона или что-то в этом роде, а затем скрываете его с помощью CSS. если поле заполнено, то вы знаете, что бот представил форму, а не обрабатывать ее.
Проверьте reCaptcha – http://code.google.com/apis/recaptcha/ , это очень просто реализовать. Вряд ли кто-то придет и будет вручную вводить эти вещи. Вероятно, это бот.
Не уверен, что его злонамеренный, не собирается пытаться выяснить. Это кто-то пытается заработать деньги, через рекламные объявления или хуже использовать уязвимости браузера и устанавливать вредоносное ПО или любое другое количество вещей. В любом случае, вы хотите, чтобы это исчезло, и CAPTCHA – отличный способ сделать это.
Еще одна вещь, которую вы можете сделать, это заблокировать IP-адрес того, кто отправляет материал, что также поможет сократить его. Конечно, для них тривиально использовать прокси-сервер или что-то еще, но вы никогда не сможете полностью остановить этот материал. Это в основном война, и победа в битвах может пройти долгий путь.
редактировать
Что касается вашей идеи анализа текста, это огромная задача, с которой все работает, начиная со спама. Вы можете исследовать, как спам электронной почты фильтруется с помощью байесовского анализа и эвристических подходов. Вы не захотите потратить на это много времени, поверьте мне.
Если вы хотите просто что-то использовать с полки, ознакомьтесь с акисметром – http://akismet.com/ , он как бы откатывает эту функциональность в API. Он начался как плагин wordpress и превратился в самостоятельный проект, на который вы можете отправить комментарий, и он ответит с вероятностью его спама.
reCAPTCHA и сильная умеренность, больше ничего. Должно уменьшать спам до буквально никакого.
Несколько ответов посоветовали reCAPTCHA, но «На самом деле это reCAPTCHA стало довольно бесполезным» .
Это просто дискредитирует оригинальную концепцию CAPTCHA.
Я бы посоветовал более гибкие подходы к посетителям качка-кольца