Как проиндексировать страницу в Google

Содержание

Мы рассмотрим с вами сегодня способ быстрой отправки в индексацию ссылок, при помощи Google Indexing API. Рекомендую внимательно изучить заметку и ознакомится с дополнительным материалом, который побудил меня создать данную заметку. Сразу сказу, что данный блог, создан был мною для личных целей. Здесь, создаю заметки полезного материала, который сам применил и испробовал.

Поэтом, пользуемся, изучаем и разбираемся вместе. Если будут дополнения или вопросы, задавайте их в комментариях.

Начну с того, что у меня есть сайты на Блоггер (Blogspot) платформе (с бесплатными доменами от Блоггер / Blogger / Blogspot), которые последнее время долго индексируются Google. При добавлении новых статей через Google Search Console (GSC), результата не давало.

Добавляем сайт в поисковики Яндекс и Google для быстрой индексации #1

Новые статьи, не уходили в индекс Google по несколько недель. Поэтому, были начаты поиски решения. Первое, что мне попало под руки, это готовое решение в виде плагина для WordPress. Однако, данный способ нам не подходит. Поэтому был найден вариант, который подойдет для любых сатов.

Он прост и универсален.

Этап 1. Создаем Indexing API в Google Cloud Platform.

Открываем Google Cloud Platform. В разделе Service Accounts, выбираем параметр Create Project:

В окне New Project, задаем любое имя проекта и нажимаем CREATE:

После этого, нас автоматически перенаправит на страницу Create Service Account. Нажимаем на CREATE SERVICE ACCOUNT:

В новом окне, нам нужно указать имя Service account name и после, нажать CREATE AND CONTINUE:

На втором шаге, выбираем параметр Owner и нажимаем CONTINUE:

На третьем шаге, ничего не меняя, нажимаем сразу DONE.

Теперь во вкладке Service accounts for project «Имя_вашего_проекта»и нажимаем напротив Actions (три точки) и выбираем Manage keys:

После этого, нам нужно будет создать новый ключ и скачать его. Чтобы не повторяться и не создавать однотипный контент, мне попалось простое и понятное видео, позволяющее понять основной принцип, как создать данный ключ. И здесь, мы увидим, как можно активировать свой API.

  • Создаем и скачиваем ключ JSON, проматываем видео на 1:44 минуты
  • Активируем API, проматываем видео на 4:40

Важно обратить внимание, что в моем случае, необходимо было прописать путь к папке со скриптом, не так, как показано у автора видео. Если у вас ОС Windows 11, возможно, будет нужно использовать способ приведенный мною.Об этом написал в завершающем этапе (ниже смотрите).

В принципе, на этом этапе, видео выше, дает полное представление, как быстро отправить на индексацию Google, новый материал сайта. Для тех, кто любит текст, а не видео, разбираем дальше. В разделе Service Accounts, копируем полностью Email нашего проекта:

Этап 2. Добавляем пользователя в Search Console.

После создания ключа, нам необходимо добавить пользователя в Search Console. Для этого, переходим в Search Console, выбираем нужный вам ресурс и нажимаем Настройки. После, переходим в Пользователи и разрешения.

В окне, вставляем наш Email, который мы копировали с вами в самом конце первого этапа. Назначаем нового пользователя обязательно владельцем.

Этап 3. Скачиваем скрипт google-indexing-api-bulk с GitHub.

После активации API, необходимо скачать скрипт google-indexing-api-bulk: https://github.com/swalker-888/google-indexing-api-bulk

После загрузки скрипта, распаковываем содержимое архива. Для удобства в дальнейшем ,лучше распаковать его на рабочий стол. Распакованную папку, сразу переименуйте с коротким и простым названием.

Этап 4. Скачиваем и устанавливаем программу Node.js.

Теперь, скачиваем программу Node.js.

Этап 5. Добавляем ключ (API) в скрипт google-indexing-api-bulk.

На первом этапе, мы с вами создали и скачали ключ в JSON. Теперь, открываем скачанный файл при помощи блокнота, или используем программу Notepad++. Содержимое файла копируем. Открываем теперь папку со скачанным на втором этапе скриптом google-indexing-api-bulkи находим в ней файл service_account.json:

Открываем файл блокнотом или программой Notepad++. Удаляем все содержимое файла и вставляем содержимое с нашим API ключов в JSON. Не забываем сохранить изменения.

Теперь, нам нужно добавить необходимые URL страниц, которые мы хотим отправить на индексацию с помощью Indexing API Google. Для этого, открываем файл urls.txt (удаляем все содержимое файла) при помощи блокнота или, любого текстового редактора и вставляем в него нужные URL-ы страниц и сохраняем.

Урлы указываем по одному в строке:

Завершение. Отправка страниц на индексацию в Google посредством Indexing API Google.

Запускаем командную строку от имени Администратора и выполняем команды (поочередно):

cd «C:UsersAdminDesktopИмя_вашей_папки»

Вместо «Имя_вашей_папки», указываем свое имя папки, которое мы задали. Под данной папкой, подразумевается скрипт google-indexing-api-bulk, который мы с вами скачивали на третьем этапе.

В моем случае, папка имеет название «1111»:

Теперь, поочередно выполняем следующие команды:

  • npm install requests
  • npm audit fix
  • npm audit fix —force

После, запускаем команду:

node index.js

Данная команда, отправляет указанные нами URL страниц, которые мы прописали с вами в файле urls.txt на пятом этапе.

При последующем добавлении новых ссылок через Indexing API Google, не нужно выполнять повторно три предыдущих команды:

  • npm install requests
  • npm audit fix
  • npm audit fix —force

После первого выполнения, все нужные файлы будут загружены в отдельную папку, внутри вашей папки со скриптом google-indexing-api-bulk:

Вам нужно будет только выполнить две команды:

  • cd «C:UsersAdminDesktopИмя_вашей_папки»
  • node index.js

Их нужно выполнять каждый раз, когда вы будете повторно запускать командную строку для отправки ссылок в Indexing Google.

Есть хорошее видео по настройке с русскими субтитрами. Не пугаемся, там все просто и понятно. В видео показан пример простой индексации с использованием WorPress плагина Instant Indexing for Google, о котором мы говорили с вами в самом начале данной заметки.

How to Index Your Site In Google: Secret Method for Indexing Your Site Faster In 2022.

Свою заметку, решил написать после прочтения статьи на vc.ru. Автор приводит также свой способ с применение подобного подхода, как мы разобрали с вами выше.

Есть видео на русском:

Индексируем тысячи страниц в Google. Практическое видео к статье по Google Indexing API.

Как вы понимаете, данный способ является более удобным для тех, кто занимается продвижением сайтов, которые созданы в конструкторах или небольшие html сайты, без CMS.

Кстати, добавил новый материал к заметке: Как настроить Clean-Param для файла robots.txt на Блоггер (Blogger)? Материал будет полезен тем, кто в первую очередь занимается продвижением сайтов на Blogger.

Отправить комментарий

Приветствуются комментарии с полезной информацией: уточнениями, дополнениями, вопросами. Очень хорошо, когда вы делитесь своим опытом. Ваш опыт и информация, могут быть полезны другим.
Категорически запрещено в комментариях использование ненормативной лексики (в том числе нецензурную речь). Комментарии со спамом и рекламой, не пройдут модерацию.
Все комментарии, проходят модерацию и публикуются только после рассмотрения и одобрения.

Без политики и языковых перепалок.

Источник: pc103help.blogspot.com

Принципы индексации сайта в поисковиках

Когда-нибудь задумывались, как сайты попадают в выдачу поисковых систем? И как поисковикам удается выдавать нам тонны информации за считанные секунды? Секрет такой молниеносной работы — в поисковом индексе. Его можно сравнить с огромным и идеально упорядоченным каталогом-архивом всех веб-страниц.

Попадание в индекс означает, что поисковик вашу страницу увидел, оценил и запомнил. А, значит, он может показывать ее в результатах поиска. Предлагаю разобраться в процессе индексации с нуля, чтобы понимать, как сайты попадают в выдачу, можно ли управлять этим процессом и что нужно знать про индексирование ресурсов с различными технологиями.

Что такое сканирование и индексация?

как работает индексация

Сканирование страниц сайта — это процесс, когда поисковая система отправляет свои специальные программы (мы знаем их как поисковых роботов, краулеров, спайдеров, пауков) для сбора данных с новых и измененных страниц сайтов. Индексация страниц сайта — это сканирование, считывание данных и добавление их в индекс (каталог) поисковыми роботами.

Поисковик использует полученную информацию, чтобы узнать, о чем же ваш сайт и что находится на его страницах. После этого он может определить ключевые слова для каждой просканированной страницы и сохранить их копии в поисковом индексе. Для каждой страницы он хранит URL и информацию о контенте.

В результате, когда пользователи вводят поисковый запрос в интернете, поисковик быстро просматривает свой список просканированных сайтов и показывает только релевантные страницы в выдаче. Как библиотекарь, который ищет нужные вам книги в каталоге — по алфавиту, тематике и точному названию. Индексация сайтов в разных поисковых системах отличается парой важных нюансов. Давайте разбираться, в чем же разница.

Индексация сайта в Google

  • индекс обновляется постоянно;
  • процесс индексирования сайта занимает от нескольких минут до недели;
  • некачественные страницы обычно понижаются в рейтинге, но не удаляются из индекса.

В индекс попадают все просканированные страницы, а вот в выдачу по запросу — только самые качественные. Прежде чем показать пользователю какую-то веб-страницу по запросу, поисковик проверяет ее релевантность по более чем 200 критериям (факторам ранжирования) и отбирает самые подходящие.

Что поисковые роботы делают на вашем сайте, мы разобрались, а вот как они попадают туда? Существует несколько вариантов.

Как поисковые роботы узнают о вашем сайте

Если это новый ресурс, который до этого не индексировался, нужно «представить» его поисковикам. Получив приглашение от вашего ресурса, поисковые системы отправят на сайт своих краулеров для сбора данных.

Вы можете пригласить поисковых ботов на сайт, если разместите на него ссылку на стороннем интернет-ресурсе. Но учтите: чтобы поисковики обнаружили ваш сайт, они должны просканировать страницу, на которой размещена эта ссылка. Этот способ работает для обоих поисковиков.

Также можно воспользоваться одним из перечисленных ниже вариантов:

  • Создайте файл Sitemap, добавьте на него ссылку в robots.txt и отправьте файл Sitemap в Google.
  • Отправьте запрос на индексацию страницы с изменениями в Search Console.

Каждый сеошник мечтает, чтобы его сайт быстрее проиндексировали, охватив как можно больше страниц. Но повлиять на это не в силах никто, даже лучший друг, который работает в Google.

Скорость сканирования и индексации зависит от многих факторов, включая количество страниц на сайте, скорость работы самого сайта, настройки в веб-мастере и краулинговый бюджет. Если кратко, краулинговый бюджет — это количество URL вашего сайта, которые поисковый робот хочет и может просканировать.

На что же мы все-таки можем повлиять в процессе индексации? На план обхода поисковыми роботами нашего сайта.

Как управлять поисковым роботом

Поисковая система скачивает информацию с сайта, учитывая robots.txt и sitemap. И именно там вы можете порекомендовать поисковику, что и как скачивать или не скачивать на вашем сайте.

Файл robots.txt

Это обычный текстовый файл, в котором указаны основные сведения — например, к каким поисковым роботам мы обращаемся (User-agent) и что запрещаем сканировать (Disallow).

Также в robots.txt стоит обязательно указать адрес карты сайта, чтобы указать поисковым роботам ее местоположение.

карта сайта в robots.txt

Чтобы проверить корректность robots.txt, воспользуйтесь отдельным инструментом в Google Search Console.

Файл Sitemap

Еще один файл, который поможет вам оптимизировать процесс сканирования сайта поисковыми роботами ― это карта сайта (Sitemap). В ней указывают, как организован контент на сайте, какие страницы подлежат индексации и как часто информация на них обновляется.

Если на вашем сайте несколько страниц, поисковик наверняка обнаружит их сам. Но когда у сайта миллионы страниц, ему приходится выбирать, какие из них сканировать и как часто. И тогда карта сайта помогает в их приоритезации среди прочих других факторов.

Также сайты, для которых очень важен мультимедийный или новостной контент, могут улучшить процесс индексации благодаря созданию отдельных карт сайта для каждого типа контента. Отдельные карты для видео также могут сообщить поисковикам о продолжительности видеоряда, типе файла и условиях лицензирования. Карты для изображений ― что изображено, какой тип файла и т. д. Для новостей ― дату публикации. название статьи и издания.

Чтобы ни одна важная страница вашего сайта не осталась без внимания поискового робота, в игру вступают навигация в меню, «хлебные крошки», внутренняя перелинковка. Но если у вас есть страница, на которую не ведут ни внешние, ни внутренние ссылки, то обнаружить ее поможет именно карта сайта.

  • частоту обновления конкретной страницы — тегом ;
  • каноническую версию страницы ― атрибутом rel=canonical;
  • версии страниц на других языках ― атрибутом hreflang.

Карта сайта также здорово помогает разобраться, почему возникают сложности при индексации вашего сайта. Например, если сайт очень большой, то там создается много карт сайта с разбивкой по категориям или типам страниц. И тогда в консоли легче понять, какие именно страницы не индексируются и дальше разбираться уже с ними.

Проверить правильность файла Sitemap можно в Google Search Console вашего сайта в разделе «Файлы Sitemap».

Итак, ваш сайт отправлен на индексацию, robots.txt и sitemap проверены, пора узнать, как прошло индексирование сайта и что поисковая система нашла на ресурсе.

Как проверить индексацию сайта

Проверка индексации сайта осуществляется несколькими способами:

1. Через оператор site: в Google. Этот оператор не дает исчерпывающий список страниц, но даст общее понимание о том, какие страницы в индексе. Выдает результаты по основному домену и поддоменам.

проверка индексации в поисковике

2. Через Google Search Console. В консоли вашего сайта есть детальная информация по всем страницам ― какие из них проиндексированы, какие нет и почему.

индексирование в google

3. Воспользоваться плагинами для браузера типа RDS Bar или специальными инструментами для проверки индексации. Например, узнать, какие страницы вашего сайта попали в индекс поисковика можно в инструменте «Проверка индексации» SE Ranking.

проверка индексации в se ranking

Для этого достаточно ввести нужную вам поисковую систему (Google, Yahoo, Bing), добавить список урлов сайта и начать проверку. Чтобы протестировать работу инструмента «Проверка индексации», зарегистрируйтесь на платформе SE Ranking и откройте тул в разделе «Инструменты».

В этом месте вы можете поднять руку и спросить «А что, если у меня сайт на AJAX? Он попадет в индекс?». Отвечаем

Особенности индексирования сайтов с разными технологиями

Ajax

Сегодня все чаще встречаются JS-сайты с динамическим контентом ― они быстро загружаются и удобны для пользователей. Одно из основных отличий таких сайтов на AJAX — все содержимое подгружается одним сплошным скриптом, без разделения на страницы с URL. Вместо этого ― страницы с хештегом #, которые не индексируются поисковиками. Как следствие — вместо URL типа https://mywebsite.ru/#example поисковый робот обращается к https://mywebsite.ru/. И так для каждого найденного URL с #.

В этом и кроется сложность для поисковых роботов, потому что они просто не могут «считать» весь контент сайта. Для поисковиков хороший сайт ― это текст, который они могут просканировать, а не интерактивное веб-приложение, которое игнорирует природу привычных нам веб-страниц с URL.

Буквально пять лет назад сеошники могли только мечтать о том, чтобы продвинуть такой сайт в поиске. Но все меняется. Уже сейчас в справочной информации Google есть данные о том, что нужно для индексации AJAX-сайтов и как избежать ошибок в этом процессе.

Сайты на AJAX с 2019 года рендерятся Google напрямую — это значит, что поисковые роботы сканируют и обрабатывают #! URL как есть, имитируя поведение человека. Поэтому вебмастерам больше не нужно прописывать HTML-версию страницы.

Но здесь важно проверить, не закрыты ли скрипты со стилями в вашем robots.txt. Если они закрыты, обязательно откройте их для индексирования поисковыми роботам. Для этого в robots.txt нужно добавить такие команды:

User-agent: Googlebot Allow: /*.js Allow: /*.css Allow: /*.jpg Allow: /*.gif Allow: /*.png

Флеш-контент

С помощью технологии Flash, которая принадлежит компании Adobe, на страницах сайта можно создавать интерактивный контент с анимацией и звуком. За 20 лет своего развития у технологии было выявлено массу недостатков, включая большую нагрузку на процессор, ошибки в работе флеш-плеера и ошибки в индексировании контента поисковиками.

В 2019 году Google перестал индексировать флеш-контент, ознаменовав тем самым конец целой эпохи.

Поэтому не удивительно, что поисковик предлагает не использовать Flash на ваших сайтах. Если же дизайн сайта выполнен с применением этой технологии, сделайте и текстовую версию сайта. Она будет полезна как пользователям, у которых не установлена совсем или установлена устаревшая программа отображения Flash и пользователям мобильных устройств (они не отображают flash-контент).

Фреймы

Фрейм это HTML-документ, который не содержит собственного контента, а состоит из разных областей ― каждая с отдельной веб-страницей. Также у него отсутствует элемент BODY.

Как результат, поисковым роботам просто негде искать полезный контент для сканирования. Страницы с фреймами индексируются очень медленно и с ошибками.

Вот что известно от самого поисковика: Google может индексировать контент внутри встроенного фрейма iframe. Именно iframe поддерживается современными технологиями, так как он позволяет встраивать фреймы на страницы без применения тега .

А вот теги , , устарели и уже не поддерживаются в HTML5, поэтому и не рекомендуется использовать их на сайтах. Ведь даже если страницы с фреймами будут проиндексированы, то трудностей в их продвижении вам все равно не избежать.

Что в итоге

Поисковые системы готовы проиндексировать столько страниц вашего сайта, сколько нужно. Только подумайте, объем индекса Google значительно превышает 100 млн гигабайт ― это сотни миллиардов проиндексированных страниц, количество которых растет с каждым днем.

Но зачастую именно от вас зависит успех этого мероприятия. Понимая принципы индексации поисковых систем, вы не навредите своему сайту неправильными настройками. Если вы все правильно указали в robots.txt и карте сайта, учли технические требования поисковиков и позаботились о наличии качественного и полезного контента, поисковики не оставят ваш сайт без внимания.

Помните, что индексирование ― это не о том, попадет ваш сайт в выдачу или нет. Намного важнее ― сколько и каких страниц окажутся в индексе, какой контент на них будет просканирован и как он будет ранжироваться в поиске. И здесь ход за вами!

Источник: seranking.com

Как быстро проиндексировать 250к страниц в Google

Эта статья является переводом заметки Давида Кюннена «How to get 250k+ pages indexed by Google», разработчика из Германии, который нашел способ лучшей индексации сайтов, написанных на JavaScript.

При создании проекта Devsnap, Давид был очень наивным. Он использовал Create React App для фронтенда и язык Go с GraphQL для бэкенда. Классический SPA-сайт с клиентским рендерингом.

Давид знал, что гуглу на job-сайте придется индексировать множество страниц, но не переживал, так как известно, что Google обрабатывает JavaScript и, по идее, должен все нормально проиндексировать.

Сначала все казалось идет норм. Шаг за шагом Google индексировал странички и сайт получал первый органический трафик. На графике ниже показано количество обрабатываемых поиском страниц сайта.

Количество просканированных страниц в Google

Почему-то индексация проходила очень медленно, Google сканировал примерно по 2 страницы в минуту. Давид думал, что гугл ускорится в ближайшее время, но этого не случилось. Поэтому, нужно было что-то предпринять.

1. Внедрение SSR

Сначала Давид внедрил SSR (серверный рендеринг), так как где-то слышал от гуглоидов, что SPA-сайты с клиентским рендерингом индексируются дважды. Сначала Googlebot смотрит на HTML и следует по ссылкам, которые находит. А после того, как контент отправляется рендереру, получается окончательный HTML. Это не слишком затратно для Google, но происходит очень медленно. Поэтому, было решено, чтобы гугл сразу видел все нужные ссылки в коде.

SSR внедрялся по этому мануалу. И казалось, что понадобится несколько дней, но работа заняла всего несколько часов. А результаты получились крутыми.

Рост краул-рейта после внедрения серверного рендеринга на SPA-сайте

Без SSR сайт застрял на 20к страницах в индексе, а сейчас этот показатель растет к значению 100к и больше. Но этого тоже было недостаточно.

Google до сих пор не индексировал кучу страниц, плюс сканирование происходило медленно. Если нужно проиндексировать 250к страниц, плюс все новые листинги с резюме и вакансиями, нужно было сделать что-то еще.

2. Внедрение динамического Sitemap

Сайт про работу очень объемный и нужно гуглу как-то помогать в сканировании, поэтому Давид сделал небольшой скрипт на Go, который генерировал sitemap.xml два раза в день и загружал его на CDN.

Так как размер сайтмапов ограничен 50к урлами, пришлось сделать несколько карт, добавляя в них только релевантный контент.

Отправленные карты сайтов в Search Console.

После отправки сайтмапов, Google стал быстрей индексировать сайт, но это по-прежнему было недостаточно. Скорость сканирования увеличились примерно до 5-10 страниц в минуту. Сравнительного графика здесь нет, так как автор почти сразу же начал внедрять следующий пункт.

3. Удаление JavaScript

Почему сайт сканировался так медленно? Ведь есть множество других сайтов с кучей страниц и гугл как-то с ними справляется.

Логично, что поисковик выделяет ограниченное количество ресурсов для индексации конкретного сайта, и сканирование Devsnap было до сих пор затратным, так как, несмотря на то, что Google видел все ссылки в начальном HTML, но он все равно отправлял все в свой рендерер, чтобы убедиться, ничего ли не осталось для индексации. Он просто не знал из-за наличия в коде JavaScript, все ли находится в начальном HTML.

Поэтому, Давид решил удалить для ботов весь JavaScript.

Источник: devaka.info

Рейтинг
Загрузка ...