Блокировка спам ботов на сайте

Спам боты — это общее определение и далеко не всегда оно отвечает сто процентной действительности. В частности к спам ботам, можно отнести различные парсеры, анализирующие и собирающую вашу статистику боты различных сервисов, поисковые боты мелких или пока не раскрученных поисковых машин и тому подобное. Не всегда эти боты вредят сайту, но следует отметить, что если все эти роботы постоянно шерстят у вас на сайте — это значительно ему вредит.

Как боты могут вредить вашему сайту

  1. Создание высокой нагрузки на сервер. Одновременное посещение большого количества поисковых роботов способны создать значительную нагрузку на ваш сервер, что негативно отобразится на времени загрузки самого сайта, в худших случаях — сайт ложится, то есть становится не доступным на неограниченное время из-за перегрузки.
  2. Скачивать вашу статистику и анализировать ваш контент. Мне не хочется писать, что все это очень плохие сервисы, это будет не верно. Но стоит признать, что именно в рунете эти функции используют не для вашей пользы, а для извлечения личной выгоды. Парсер страниц извлекает и анализирует контент на наличие и количество ключевых фраз, словоформы и их группировку. Постоянно анализируют, какие из ваших страниц в ТОПе поисковой выдачи и передают эти данные третьим лицам. К ним же можно отнести и роботы, постоянно рыскающие по сайтам и собирающие статистику по количеству и сайтам на которых размещены ссылки.
  3. Парсеры контента. Многие парсеры не интересуются аналитикой, а используют ваш контент для наполнения автонаполняемых ресурсов. Некоторые статьи могут прогоняться через синонимайзер, а некоторые не брезгуют и тупо размещают статью без изменений. В любом случае — это дубликаты, которые могут отобразится негативно на рейтинге вашего ресурса, но так же может вороваться свежий и не проиндексированный контент, что еще хуже, в этом случае дублирующим сайтом можете оказаться именно ваш ресурс.
  4. Часть ботов может направляться для осуществления DDOS атак, что может на долго вывести из строя ваш сайт.
  5. Скликивание рекламы, что может приводить к бану.
  6. Автоматическая регистрация, маскируясь под пользователей.
  7. Автоматическая публикация публикаций.
  8. И прочее…

Если с автоматической регистрацией и публикацией спамных комментариев все более менее понятно, для решения данной проблемы достаточно установить любую доступную капчу. Лучшие показатели, несомненно, можно присвоить Google reCAPTCHA, защиту с помощью данного инструмента не обойдет ни один робот. Вам останется периодически фильтровать написанные вручную комментарии, но и их уменьшиться после установки сложной капчи на порядок. Ни один спамер не станет долго возиться на одном сайте, зачем, если есть очень много других, которые не защищены или имеют простенькую математическую. То с другими так просто решить вопрос не получится…

Я не считаю вредным, что не раскрученные или новые поисковые машины собирают для себя информацию — Яндекс и Google тоже когда то с этого начинали. Но к сожалению, далеко не все разработчики подходят достаточно серьезно к оптимизации работы своих ботов. Постаянно роющий бот не только не приносит вам никакой пользы, а наоборот значительно замедляет загрузку страниц, приводит к выдаче ошибок и прочему. Все эти баги сканируются уже существующими Яндекс и Гугл ботами, и проанализировав скорость загрузки и кол-во ошибок, в 90% случаев понижает ваши позиции или же не дают вам продвинуться выше в поисковой выдаче. Да это и понятно, с их стороны виновны не внешние факторы, а ваши ошибки и не оптимизированный ресурс.

Сервисы созданные для сбора статистики, анализа ключевых слов конкурентов, входящих и исходящих ссылок, скорее всего создавались с добрым умыслом. Но у нас не принято думать самому о контенте, зачем тратить свое время и расходовать ресурсы мозга, если все сделает за небольшую сумму сервер. В итоге конкуренты анализируют все сайты находящиеся в топе выдачи на количество и ключевые фразы, по определенным запросам, количество символов и прочее. И слегка усовершенствовав данные параметры и небольшими приложенными усилиями, подвигаю конкурентов из Топа. Если вы думаете, что на ваш сайт такие не забредают, то вы глубоко ошибаетесь. К сожалению, использование не совсем честных методов продвижения — это уже укоренившийся факт, особенно страдают от этого сайты молодые и коммерческие, но так же и любые сайты, которые вышли в топ по какому либо запросу.

Парсеры контента — это бич рунета. Для того чтобы понять какое количество авто-наполняемых ресурсов производится ежемесячно достаточно заглянуть на биржи по продаже сайтов. Далеко не все из них для вас вредные, многие вебмастера пользуются для наполнения вполне честные методы — наполнение из RSS лент, при этом проставляя ссылки на источник. Но также есть и не добросовестные веб мастера, которые размещают ваш контент без изменений или с незначительными изменениями на своих ресурсах. Особенно от этого страдают новые и молодые сайты, размещающие качественные статьи, но в силу их возраста, роботы посещают ресурсы не так часто. В этом случае ворованный с вашего ресурса контент более устоявшимся ресурсом, если при этом он еще зарегистрирован в Яндекс- или Google- новостях, делает дублером именно вас.

Именно поэтому я очень рекомендую блокировать вредных спам ботов на своих ресурсах, потому что даже очень крупные ресурсы порой не брезгуют этой технологией — проверил на себе, обнаружил случайно. Так же стоит отказаться от автоматической отправки Push уведомлений о размещенной статье, пока статья не будет проиндексирована Яндексом и Гуглом.

Скликивание рекламы и большое количество заходов с сайтов с плохой репутацией. Как ни странно, но так же многие завистники довольно часто прибегают и к этому способу тоже. Если у вас уже хорошо зарекомендовавший себя ресурс и уже долгими годами сотрудничества, доказавший хорошую репутацию, то проблема со специальным накликиванием рекламы может решится довольно просто, но для молодых и недавно начавших работать с рекламными сетями все может закончиться Баном.

Поверьте, крупной рекламной сети типа Яндекс директ или Google Adsense, проще забанить ваш ресурс, чем разбираться с вашими конкурентами и завистниками.

Менее же жесткие меры — это снижение стоимости клика до минимальных значений. Заметив, что на ваш сайт идет не качественный трафик, рекламные сети очень часто подстраховываются и сводят стоимость клика к минимуму — 0,1..0,3 цента и могут удерживать эту планку довольно долго, пока ваш ресурс снова не попадет в доверенные.

Такой трафик наиболее часто заказывается с буксов и сервисов накруток, заметив такой трафик стоит немедленно перекрывать этот поток, не дожидаясь санкций. Лучший вариант заблокировать их изначально…

Я привел примеры основных и самых популярных проблем связанных со спам ботами, но существуют и более мелкие, которые мы пропустим и перейдем к способам решения данного вопроса…

Как заблокировать спам ботов на WordPress

iThemes Security

WordPress на данный момент самая популярная CMS для построения сайтов, поэтому начну именно с нее. Но так же и из за того что для этой платформы есть очень простое автоматическое решение это использование плагина iThemes Security, который я всем и рекомендую. Правильная настройка плагина даже без дополнительных модулей способно ограничить доступ значительному количеству известных спам ботов.

All in One SEO Pack

Второй способ решения, использование дополнительного модуля плагина All in One SEO Pack — Блокировщик вредных роботов. Тем более, что данным плагином пользуются многие из вас. Установить дополнительный модуль можно через верхнее меню — Seo:

Заходим в управление модулями и активируем — Блокировщик вредных ботов:

После не хитрых настроек, можно отслеживать значительное количество заблокированных роботов:

Также вы можете дополнять черный список вредных ресурсов и своими данными.

Использование этих плагинов избавит вас от 90% всех спам ботов в сети. Я же рекомендую не использовать их раздельно, а именно использовать в связке, для получения максимального результата. В свою очередь сайт под защитой iThemes Security, практически не преступен для угроз.

Многие плагины, так же поддерживают подобные функции, например Bicycles by falbar , он тоже способен оградить вас от многих угроз. Но именно использование всех этих плагинов в тандеме приносит максимальный результат. Вы конечно можете использовать другие плагины для этих целей — это ваш личный выбор…

Блокировка вредных ботов на Joomla

С движком Joomla дела обстоят намного печальнее, так как последние годы большая часть разработчиков перешла к разработке для WordPress.

Основной рекомендацией будет использование компонента rsfirewall, который отсеит часть спам ботов и полностью защитит ваш сайт от взлома. И по мере отслеживания статистики попыток взлома не забывайте самые настырные IP вносить в черный список.

Будьте внимательны, не внесите свой IP в черный список, чтобы иметь доступ к сайту))) Советую сразу внести себя в белый список — это поможет избежать излишних телодвижений в будущем

Сам лично не проверял на работоспособность, но есть еще Плагин CleanTalk позволяющий защитить сайт под управлением CMS Joomla от автоматического и ручного спама. Метод защиты сайтов от спама, позволяет отказаться от способов защиты, затрудняющих общение посетителей на сайте(CAPTCHA, вопрос-ответ и т.д.). Приложение позволяет автоматизировать защиту, как от автоматически рассылаемого спама, так и от регистраций спам ботов. Кроме того, пользователи могут воспользоваться дополнительными функциями, позволяющими блокировать сообщения по стоп словам, или сформировать собственный словарь стоп слов.

На основе таких проверок сервисом формируется собственный список email адресов используемых спам ботами. Таким же образом проверяются регистрации посетителей. В черный список сервисом добавляются не только email адреса, но и IP адреса и домены сайтов продвигающихся через спам рассылки.

  • Защита от регистрации ботов
  • Защита формы обратной связи
  • Защита компонента VirtueMart
  • Защита компонента Rapid Contact
  • Защита компонента VTEM contact
  • Защита компонента JComments
  • Совместим с Joomla 1.5, 1.7, 2.5, 3.X.

Пробуйте…

Блокировкам по IP через htaccess

Наиболее универсальный способ — править файл .htaccess в корне сайта на сервере. Если такого файла нет — создайте его.

На многих сайтах рекомендуют использовать следующий метод:

Order Allow,Deny

Allow from all

Deny from 94.125.184.50

Deny from 46.39.239.151

где 46.39.239.151 и 94.125.184.50 — IP адреса которые нужно заблокировать (на момент написания статьи — это действительно спамерские адреса).

Данным способом вы полностью заблокируете сайт для пользователей и ботов с этих IP.

Это конечно надёжно, но нельзя забывать что под одним IP адресом могут пользоваться несколько людей, есть даже целые города имеющие один IP адрес. Поэтому вы рискуете потерять часть посетителей.

Если это был бы единственный способ то можно было бы и пожертвовать этой малой частью посетителей, но, к счастью, есть и другой способ — блокировать запросы GET и/или POST с определённых IP адресов.

Немного о том, что такое GET и POST.

Они нужны для отправки запроса на сервер.

Метод GET

По умолчанию при запросе используется метод GET. Метод POST используется только тогда, когда это явно указано в запросе формы. Для CGI-программиста очень важно понимать, что при запросе методом GET данные формы передаются серверу вместе с URL. Web-серверы, поддерживающие CGI, копируют эти данные в переменную окружения с именем QUERY_STRING. После этого забота о получении данных из переменной окружения и их обработке возлагается на CGI-программу.

URL со строкой запроса выглядит так:

http://www.domen-name.com/login.pl?nick=maks&psw=parol

Знак ? отделяет строку запроса от собственно URL ресурса; nick и psw — переменные передаваемые серверу, maks и parol — их значения соответственно.

Метод POST

Метод POST используется тогда, когда это явно указано в атрибуте формы METHOD. В отличии от метода GET, POST помещает данные не в URL, а в тело запроса. Запрос POST во многом похож на ответ HTTP. Первая строка представляет собой стандартный запрос HTTP, в котором указан метод POST. В ней могут быть необходимые дополнительные заголовки, отделяемые от тела запроса пустой строкой.

Тело запроса при использовании метода POST передается программе как стандартный поток ввода.

В общем на большинстве сайтов метод GET используется для формирования и выдачи нужных страниц, т.е блокируя этот метод посетитель не сможет «передвигаться» по вашему сайту. А вот метод POST чаще всего используется для передачи данных в формах комментирования, вводе логина и пароля и прочих. Именно метод POST мы и будем блокировать.

Для этого всё в том же файле .htaccess, в корне сайта на сервере, прописываем следующее:

<Limit POST>
Order Allow,Deny
Deny from 46.39.239.151
Deny from 94.125.184.50
Allow from All
</Limit>

Где 46.39.239.151 и 94.125.184.50 — IP адреса которые нужно заблокировать.

В результате если посетитель зайдёт с IP адреса 46.39.239.151 — он сможет нормально «передвигаться» по сайту, читать информацию, смотреть картинки с видео и т.д. Но как только он нажмёт кнопку «отправить» (ту которая находится в формах комментирования, обратной связи, авторизации и прочих) ему выдаст сообщение примерно такого вида:

Forbidden

You don’t have permission to access /image/form.php on this server.

Выводы

Какие можно сделать выводы из выше написанного. Не надейтесь на удачу, не будьте самонадеянными и защищайте ваш ресурс всеми доступными способами. Все ваши труды благотворно отразятся на репутации вашего сайта, на его безопасности и работоспособности.

На этом все. Всем удачи! Если что-то пропустил, поделитесь с другими читателями в комментариях!

Вас могут заинтересовать:

1 комментарий

  1. Наталья:

    Очень понравился ваш блог. Честно. Зацепилась за статью про настройку рекламы между записями и подвисла на несколько статей. Так держать!

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *