Блокировка ботов по user-agent — blacklist список


Итак, имея инструмент блокировки по black-list и вручную ковыряя логи, обнаружил что практически DDOS устраивают куча всяких «левых» ботов.
Например «SemrushBot www.semrush.com/bot.html» — какой то иностранный SEO инструмент — думаю мой сайт ему вообще не пригодится, собирает всё на автомате создавая лишнюю нагрузку.
«megaindex.com» туда же — я на мегаиндексе ни ссылки ни статьи не закупаю, и не продаю.
«libcurl» — кто, то парсит curl-ом — тоже в сад
Анализ своих логов может проявить ещё много ненужных вам ботов.
Блокировать можно в 2 уровня — дописать в анализаторо логов по вхождению в user-agent, а так же непосредственно в nginx в начало секции server { … } добавляем:
if ($http_user_agent ~ SputnikBot|Crowsnest|PaperLiBot|peerindex|ia_archiver|Slurp|Aport|NING|JS-Kit|rogerbot|BLEXBot|MJ12bot|Twiceler|Baiduspider|Java|CommentReader|Yeti|discobot|BTWebClient|Tagoobot|Ezooms|igdeSpyder|AhrefsBot|Teleport|Offline|DISCo|netvampire|Copier|HTTrack|WebCopier) {
return 403;
}

Список проверяем вручную!
Как видно в списке присутствуют программы качающие сайт целеком — они так же создают сильную нагрузку! Вот ещё Список ботов и программ качающих сайт целиком.

,

Один комментарий на «“Блокировка ботов по user-agent — blacklist список”»

  1. Я вот думаю, стоит ли держать сайты с общей посещаемостью 2000 уников в сутки у себя дома ? С одной стороны не хочется платить за хостинг, но головняка выше крыши.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *