Гугл бот грузит сайт

Иногда сканирование вашего сайта роботами Google может вызвать чрезмерную нагрузку на инфраструктуру или даже перебои в работе. Мы стараемся не допускать этого и используем сложные алгоритмы, которые помогают определять, сколько страниц можно обрабатывать, не оказывая излишней нагрузки на сервер. Однако вы можете самостоятельно сократить количество запросов, выполняемых нашими роботами.

Внимание! Если снизить частоту сканирования роботом Googlebot, это будет иметь ряд последствий. Робот Googlebot будет находить меньше новых страниц, имеющиеся в индексе страницы будут обновляться реже (например, для показа сведений о доступности и ценах товаров в результатах поиска будет требоваться больше времени), а удаленные страницы будут дольше сохраняться в индексе.

Если вы считаете, что эта мера принесет пользу вашему сайту, то можете сделать следующее:

  • Уменьшить частоту сканирования в настройках Search Console (рекомендуется)
  • Разрешить Google уменьшать частоту сканирования автоматически

Уменьшить частоту сканирования в настройках Search Console (рекомендуется)

Вы можете непосредственно в интерфейсе Search Console сообщить роботу Googlebot о том, что ваш сайт нужно сканировать реже. Обычно подобные изменения вступают в силу в течение нескольких дней. Прежде чем сделать это, необходимо подтвердить право собственности на сайт. Не выбирайте частоту сканирования, которая будет слишком низкой для вашего сайта. Узнайте, как действия, выполняемые роботом Googlebot, зависят от лимита на сканирование.

ПОЧЕМУ ДОЛГО ГРУЗИТСЯ САЙТ? Как это исправить?

Как загуглить в гугле

Если у вас нет доступа к настройкам частоты сканирования, то вы можете отправить специальный запрос на уменьшение количества посещений вашего сайта роботом Googlebot. Обратите внимание, что запросить увеличение частоты сканирования невозможно.

Как разрешить Google уменьшать частоту сканирования автоматически

Если вам нужно срочно снизить частоту сканирования на небольшой период времени (например, на несколько часов или дней), показывайте вместо контента информационную страницу с кодом статуса HTTP 500 , 503 или 429 . Если на сайте много URL, которые возвращают коды статуса HTTP 500 , 503 или 429 (такое случается, например, если вы полностью отключили сайт), робот Googlebot будет сканировать ваш ресурс реже. Новая частота сканирования будет действовать как для URL с указанными выше кодами ошибок, так и для всего сайта. Если количество этих ошибок сократится, частота сканирования автоматически начнет увеличиваться.

Внимание! Мы не рекомендуем применять этот вариант дольше 2 дней. URL, на котором робот Googlebot будет обнаруживать эти коды статуса в течение нескольких дней, может быть исключен из индекса Google.

Отправить отзыв

Если не указано иное, контент на этой странице предоставляется по лицензии Creative Commons «С указанием авторства 4.0», а примеры кода – по лицензии Apache 2.0. Подробнее об этом написано в правилах сайта. Java – это зарегистрированный товарный знак корпорации Oracle и ее аффилированных лиц.

Что делать если вы не можете зайти на определенный сайт????( РЕШЕНИЕ)

Последнее обновление: 2023-01-15 UTC.

Источник: developers.google.com

Еще один способ снизить нагрузку на сайт

Источников нагрузок на сайт может быть очень много. В этом кейсе рассмотрим один из них — нагрузка со стороны роботов поисковых систем.

Поделиться
Поделиться

Еще один способ снизить нагрузку на сайт

  • Внутренние факторы. Следует проверить сайт на вирусы, наличие посторонних скриптов и кодов, убедиться не создается ли нагрузка из-за используемых вами плагинов и модулей для CMS и так далее;
  • Внешние факторы. На самом деле этих факторов может быть много, однако, в этом кейсе мы рассмотрим только один из них – нагрузку, создаваемую поисковыми роботами.
Можно ли привязать чужую карту к Гугл пэй

Запускай таргетированную рекламу с МегаФон Таргетом и получай 100% кешбэк за три месяца

Самостоятельно настраивай рекламу и продавай тем, кто:

  • Уже интересуется похожими товарами и услугами;
  • Регулярно бывает рядом с вами;
  • Заходит на сайты конкурентов, получают звонки и SMS.

Реклама. ПАО «МегаФон». ИНН 7812014560.

Нагрузка и логи

  • Блог на WordPress;
  • Обычный виртуальный хостинг, который может позволить себе, практически, каждый.

В первую очередь нужно включить логи для сайта на хостинге. Панели управления разных хостинг-провайдеров выглядят по-разному и, разумеется, интерфейс у них тоже разный. Поэтому нужно обратиться в тех.поддержку вашего хостинга и попросить включить логи, либо попросить ссылку на инструкцию по самостоятельному включению.

Как правило, логи бывают двух видов:

  • Access_log. В этом файле будет содержаться информация о количестве посылаемых запросов к вашему сайту – это и ваши пользователи, и роботы поисковых систем, и искусственно созданные ботнет.
  • Error_log. В этом файле вы сможете увидеть все внутренние ошибки вашего сайта.

Очевидно, что при нагрузках от поисковых роботов нам потребуется только Access_log. Именно в этом файле мы сможем увидеть User-Agent, который обращался к нашему сайту. По сути, User-Agent – это десктопные и мобильные браузеры пользователей, роботы, в том числе и «пауки» поисковых систем.

User-Agent основного робота Яндекса в логах отображается как:

User-Agent других роботов Яндекса вы можете посмотреть по ссылке:

User-Agent основного робота Гугла в логах отображается как:

User-Agent других роботов Гугла вы можете посмотреть по ссылке:

В свою очередь, нагрузка со стороны поисковиков – это большое количество запросов к сайту, совершаемых в единицу времени, как правило, в секунду. Подобные нагрузки не носят целенаправленного, деструктивного характера, однако, ряд мер по защите принять стоит. Причем эти меры не потребуют каких-то сверхзнаний.

Добавить в семейную группу Google как

Нам достаточно только «сообщить» роботам о таймауте обращений. Таким образом, мы говорим роботам примерно следующее:

«Обращаться к этому сайту не реже 10 секунд».

Это время мы всегда можем изменить. Впрочем, как показала практика, 10 секунд вполне достаточно.

Таймаут для Yandexbot

Для поискового робота Яндекса таймаут устанавливается в файле robots.txt. Нам нужно прописать всего одну директиву:

Crawl-delay: 10

Как и было отмечено выше, в рассмотренном примере мы установили таймаут в 10 секунд. Однако, важно помнить о том, что после того, как количество запросов Яндекса и нагрузка на процессор сервера уменьшатся, эту директиву необходимо удалить. Иначе может получиться так, что робот станет медленнее индексировать сайт, а это плохо.

Кроме того, робот Яндекса «понимает» и дробные значения, например, мы можем задать период 0,5 секунды, который будет означать обращение Яндексбота к сайту не чаще одного раза в полсекунды.

Таймаут для Googlebot

Для Googlebot таймаут задается прямо в интерфейсе для вебмастеров – Google Search Console (бывш. Инструменты для вебмастеров). Разумеется, ваш сайт уже должен быть добавлен в этот инструмент.

Зайдя в свой кабинет и выбрав необходимый сайт, нужно нажать на пиктограмму шестеренки, а затем пункт меню «Настройки сайта».

В разделе «Частота сканирования» нужно выбрать пункт «Ограничить максимальную скорость сканирования Google», а затем переместить ползунок на более низкий таймаут, скажем, на 111.

Если для робота Яндекса после снижения количества запросов нам нужно удалить директиву Crawl-delay, то для Гугла этого делать необязательно. Таймаут автоматически вернется в исходное положение через 90 дней.

Также следует учесть, что изменения, внесенные в Google Search Consol вступают в силу примерно через 2-3 дня. Поэтому не стоит удивляться если вы не увидите сразу резкого снижения.

Что такое установщик Google update

Источник: www.cossa.ru

Гугл бомбит сайт левыми запросами, как исправить?

Вот уже больше месяца бот гугл забрасывает группу сайтов однотипными запросами.

Вот пример из лога Апача.

66.249.64.174 — — [23/Dec/2019:08:25:08 +0200] «GET /109367389/sudationreflex.jp HTTP/1.0» 404 3752 «-» «Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)» 66.249.64.172 — — [23/Dec/2019:08:25:02 +0200] «GET /archegone-109244901_mammarymammary/df9d4eo.com.co HTTP/1.0» 404 3752 «-» «Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)» 66.249.64.172 — — [23/Dec/2019:08:24:57 +0200] «GET /supervene-109309288_incipience.fyi HTTP/1.0» 404 3752 «-» «Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)» 66.249.64.172 — — [23/Dec/2019:08:24:51 +0200] «GET /fishpaste/109008726_synchronicitysynchronicity415a3aj.software HTTP/1.0» 404 3752 «-» «Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)» 66.249.64.172 — — [23/Dec/2019:08:24:45 +0200] «GET /tawney_111772799-corregidor.art HTTP/1.0» 404 3752 «-» «Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)» 66.249.64.172 — — [23/Dec/2019:08:24:39 +0200] «GET /109320230-planningladylady.fyi HTTP/1.0» 404 3752 «-» «Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)» 66.249.64.172 — — [23/Dec/2019:08:24:33 +0200] «GET /f74292bzebeck_109137128_adenovirus.jp HTTP/1.0» 404 3752 «-» «Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)» 66.249.64.172 — — [23/Dec/2019:08:24:28 +0200] «GET /stormfulunswornunsworn-108902950.wang HTTP/1.0» 404 3752 «-» «Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)» 66.249.64.172 — — [23/Dec/2019:08:24:22 +0200] «GET /a28d13udexterous/109361993/baguio.art HTTP/1.0» 404 3752 «-» «Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)» 66.249.64.172 — — [23/Dec/2019:08:24:16 +0200] «GET /dupabilitydupability/underagef7c707h-108817600.software HTTP/1.0» 404 3752 «-» «Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)» 66.249.64.172 — — [23/Dec/2019:08:24:10 +0200] «GET /emissary_111090867/a7b33dlperpetrationemissary.wang HTTP/1.0» 404 3752 «-» «Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)»

Что за пицца в гугле

Разумеется страниц таких нет. Ссылок таких на сайте нет. В сайтмепе тоже.
IP я проверял, это именно Гугл.
Обращения с разных IP. Это поведение бота серьезно грузит сайты. По сути DDOS получается.
Банить не хочется, ибо чревато последствиями и выпадением из поиска.

Как решить проблему?

  • Вопрос задан более трёх лет назад
  • 316 просмотров

Источник: qna.habr.com

Рейтинг
Загрузка ...