Блокировка ботов по user-agent – blacklist список


Итак, имея инструмент блокировки по black-list и вручную ковыряя логи, обнаружил что практически DDOS устраивают куча всяких “левых” ботов.
Например “SemrushBot www.semrush.com/bot.html” – какой то иностранный SEO инструмент – думаю мой сайт ему вообще не пригодится, собирает всё на автомате создавая лишнюю нагрузку.
“megaindex.com” туда же – я на мегаиндексе ни ссылки ни статьи не закупаю, и не продаю.
“libcurl” – кто, то парсит curl-ом – тоже в сад
Анализ своих логов может проявить ещё много ненужных вам ботов.
Блокировать можно в 2 уровня – дописать в анализаторо логов по вхождению в user-agent, а так же непосредственно в nginx в начало секции server { … } добавляем:
if ($http_user_agent ~ SputnikBot|Crowsnest|PaperLiBot|peerindex|ia_archiver|Slurp|Aport|NING|JS-Kit|rogerbot|BLEXBot|MJ12bot|Twiceler|Baiduspider|Java|CommentReader|Yeti|discobot|BTWebClient|Tagoobot|Ezooms|igdeSpyder|AhrefsBot|Teleport|Offline|DISCo|netvampire|Copier|HTTrack|WebCopier) {
return 403;
}

Список проверяем вручную!
Как видно в списке присутствуют программы качающие сайт целеком – они так же создают сильную нагрузку! Вот ещё Список ботов и программ качающих сайт целиком.

,

Один комментарий на «“Блокировка ботов по user-agent – blacklist список”»

  1. Я вот думаю, стоит ли держать сайты с общей посещаемостью 2000 уников в сутки у себя дома ? С одной стороны не хочется платить за хостинг, но головняка выше крыши.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *