Проверка индексации сайта в Яндексе и в Гугле

Поисковые системы 19.09.2013 Комментарии: 100 96883 просмотров

Проверка индексации сайта в Google  и в ЯндексеДобрый день, уважаемый читатель. Продолжим изучать мою книгу о поисковом трафике для блоггера и поговорим сегодня об индексировании ресурса. В этой статье Вы узнаете, как можно быстро и легко проверить индексацию страниц Вашего сайта в Яндексе и в Google с помощью обычных операторов поиска и различных сервисов. Поймете важность этого процесса, увидите на разных примерах несколько вариантов определения документов Вашего блога. Конечно, этот пост имеет практическое значение, но он является первым мануалом для изучения, чтобы в дальнейшем заниматься поисковым продвижением своего веб-ресурса.

Содержание

Проверяем наличие сайта в индексе поисковых систем

Перед тем, как мы поговорим о различных службах и сервисах проверки проиндексированных страниц в Яндексе и Гугле, предлагаю вспомнить важность самой базы данных. Дело в том, что любая поисковая система работает только с теми документами, которые просмотрены ее роботом и занесены в базу данных. Эта база называется индексом, а сам процесс сбора всех данных со страниц любого сайта в сети – индексацией. Этот процесс достаточно сложный, но увлекательный и познавательный. И правильное понимание работы этого процесса – это одно из главных условий успешного и правильного продвижения любого блога в Яндексе и Гугле. Поэтому, перед дальнейшим изучением материала этой статьи, рекомендую всем вспомнить суть и важность индексации сайта в поисковиках.

к меню ↑

Проверка индексирования страниц сайта в Яндексе и Гугле

Яндекс. Для того, чтобы узнать наличие страниц в русском поисковике, существует несколько операторов. Оператор site находит все страницы Вашего сайта в базе данных Яндекса, а host дает информацию по индексированным документам с доменов и поддоменов сайта. Вот результаты работы оператора site:

Как проверить индексацию страницы сайта в Яндексе

А вот итоговый результат после использования оператора host:

Проверка индексации сайта в яндексе

Теперь давайте посмотрим, сколько покажет нам количество проиндексированных страниц оператор host для моего блога не по главному зеркалу (без www). Результат конечно будет предсказуемым:

Данные по индексированию в Яндексе с оператором host

Если же проделать ту же схему но для оператора site, то число страниц в индексе не по главному зеркалу моего сайта не измениться – останется 206. Это потому, что как я и говорил, site находит все документы сайта, а host – домена. Поэтому дам Вам такой совет – если хотите быстро оценить число страниц любого веб-ресурса в базе данных Яндекса, используйте оператор site (в строку запроса можно вводить адрес сайт с или без www – результат будет одним и тем же). Если же Вм нужно знать точное число страниц в индексе любого домена, используйте следующее сочетание операторов (вместо адреса моего блога в примере ставите нужный адрес домена):

Универсальный вариант для получения данных по индексации страниц сайта в Яндексе

Google. Самая популярная поисковая система обладает одним оператором для определения проиндексированных страниц. Его название site и он выполняет такую же функцию, как и его коллега в Яндексе – дает полный перечень документов, находящихся в базе данных Гугла. Вот как он выглядит:

Проверка индексации сайта в Гугле

К сожалению, этот оператор показывает все страницы, которые находятся в индексе Гугла. Но как Вы знаете, этот поисковик разделяет свою базу данных на основной индекс и дополнительный. В основном содержатся все документы Вашего блога, которые Гугл использует для своих результатов выдачи. Остальные же документы, которые обычно содержат дублирующие страницы, технические разделы из CMS или не подходящие по ранжированию урлы находятся в дополнительном индексе, который называется Supplemental Results (по сеошному – “сопли”). Поэтому, для точного определения рабочих проиндексированных страниц своего блога, которые участвуют при ранжировании, используется специальная команда &:

Как проверить индексацию страницы сайта в Google

Как видите, результаты сильно отличаются в моем случае – число проиндексированных страниц в основном индексе намного меньше, чем общее число. Это говорит о том, что в свое время при первых пробежках поисковым роботом по моему блогу, Гугл успел занести в свою базу кучу мусора и дублей. И перед тем, как я успел это обнаружить, их масса намного превышает реальные страницы моего сайта. Что конечно сказалось на поисковом трафике из Google. Поэтому так важно, перед самым первым запуском своего нового веб-ресурса полностью закрыть в файле robots.txt все ненужные разделы Вашего сайта. Но об этом мы поговорим в другой раз.

к меню ↑

Проверка индексации страниц с помощью сервисов

RDS bar. Самый быстрый вариант проверки – использовать один из лучших анализаторов сайтов – Rds bar (пост о том, как его настроить и как им пользоваться). Этот плагин, который можно прикрутить к любому популярному браузеру, с ходу может дать всю информацию о наличии страниц в базе данных Яндекса и Гугла (в общем индексе), а также информацию о дате индексации текущей страницы. Благодаря этому расширению, не теряя времени на переходы в различные сервисы или в поиск, можно оценить индексирование любого сайта. В общем, рекомендую, это очень удобно:

Сервис XSEO. Набор инструментов для веб-мастеров и блоггеров, XSEO.in тоже дает четкую информацию об индексации страниц сайта в Яндексе и Google. Но в отличие от предыдущего сервиса, он позволяет достаточно быстро, в пару кликов увидеть число страниц в Гугле в разных индекса – в основном и дополнительном. Такая информация есть далеко не в каждом плагине, программе или сервисе. XSEO дает точные данные о числе документов, как например, для моего блога:

Проверка индексации страниц сайта в сервисе XSEO

Для получения таких данных для любого, анализируемого Вами веб-ресурса, достаточно в сервисе выбрать раздел “Проверка индексации сайта”.

Сервис PR-CY. Известный аналитический сервис Pr-Cy.ru, имеющий в своем активе достаточно неплохой набор различных отчетов и seo-инструментов. Как и предыдущие источники, он тоже дает данные об индексации любого сайта. Но у него есть замечательное отличие – он обладает интересной графикой, в которой показывает историю индексации страниц в поисковых системах. Такую штуку я редко где замечал, но именно этот сервис имеет самый дружелюбный интерфейс, позволяющий быстро увидеть изменение числа проиндексированных страниц. Вот, к примеру, такова история попадания документов моего блога в базу данных Яндекса:

История индексации страниц моего сайта в Яндексе

Как видно из этого графика, сервис четко показывает число проиндексированных страниц в русском поисковике в течение года. Таким образом можно оценить индексацию любого сайта, особенно, если Вы выбираете хорошего донора для закупки внешних ссылок. Например, в усовершенствованном seo-агрегаторе Seopult Pro, Кстати, на графике хорошо виден скачок числа проиндексированных документов в мае а потом возвращение на предыдущее количество. Это все потому, что в апреле я поменял дизайн своего сайта и у меня поменялась полностью структура страниц. Яндекс достаточно быстро прореагировал, но в свое время поставленный редирект все вернул на место.

С Гуглом история немного другая у меня получилась. Вот график индексации страниц моего блога, начало которого было положено ровно год назад:

История индексации страниц моего сайта в Google

Как видите, рост шел потихоньку, но потом я стал больше писать статей и начал экспериментировать с метками. В итоге пока я их поудалял, Google честно отсканировал все дубли и отправил в свою базу данных. В итоге позиции моего блога упали и до начала июня этого года видимость моего сайта в этом поисковике не достигала и 2-х%. То есть, гугловского трафика на моем блоге просто не существовало. Но как видите, уже на текущий момент число страниц в дополнительном индексе конкретно уменьшилось. И эта тенденция продолжается на текущий момент – все дело в одном моем эксперименте по удалению дублирующих страниц с базы. На данный момент видимость моего блога в Google поднялась до 21%, а материал по эксперименту увеличивается – на будущее заготовил свой пост о работе с дублями и исключению их из индекса Гугла.

к меню ↑

Проверка индексации сайта в Яндекс вебмастере и Google Tools

На десерт оставил самые интересные сервисы, которые могут дать полную информацию об индексировании Вашего веб-ресурса. Конечно, я имею в виду панели инструментов для веб-мастеров от Яндекса и Гугла. Только они обладают всеми точными данными о наличии страниц Вашего сайта в их базах данных. Так скажем, обратимся к первоисточнику!

Сервис от Яндекса. Как я уже сказал, это лучший пакет инструментов, который покажет Вам всю информацию об индексировании страниц Вашего сайта (и не только). Им я пользуюсь с самого начала, как только отправил свой блог на съедение русскому поисковику – при регистрации своего сайта. За все время эксплуатации не раз пользовался классными отчетами, которые предоставляет этот сервис.

В этой статье я не буду пояснять все детали отчетов по индексации – они детально расписаны в посте о работе в вебмастере Яндекса. Смотрите раздел “Индексация сайта”. Если что-то будет не понятно, в сервисе есть замечательный хелп. На крайний случай, если не разберетесь сами с аналитическими данными отчетов, пишите свои вопросы в комментарии этой статьи.

Сервис от Google. Как и у Яндекса, инструменты вебмастера есть и у Гугла. И все данные в нем дают самую достоверную информацию, так скажем из первых рук. Поэтому, для получения самых точных данных об индексации страниц сайта в этом поисковике, рекомендую использовать подраздел “Статус индексирования” в этом сервисе.

При первом заходе в этот отчет Вы увидите единственный график, где его элементами (отдельные точки на нем) являются общие числа проиндексированных всего страниц сайта в индексе Google. Это количество всех документов, которые находятся в двух индексах – основном и дополнительном.

Но конечно это не вся информация об индексации – для этого нужно нажать кнопку “Расширенные данные” и включить все пустые чек-боксы (поставить галочки). В итоге к первому графику добавляется еще три (картинка кликабельна):

Статсус индексации моегосайта в Гугл вебмастере

Итак, что же показывают эти графики и какую пользу мы можем получить от их показателей:

проиндексировано за все время – это число всех страниц, которые когда-то нашел поисковый робот Гугла. Обычно значения узловых точек этого графика намного больше, чем числа проиндексированных всего документов. Это говорит о том, что кроме периодически появляющихся новых страниц, Google слопал за время скана все бесполезные страницы на Вашем блоге, а также возможно и дубли. Как в моем случае.

заблокировано в файле robots.txt – число запрещенных страниц для индексации, для которых прописаны запрещающие директивы в файле robots.txt. По идее здесь указывается число, которое Гугл не занес в свой индекс из-за запрета. Но на самом деле оно не точное, потому что этот поисковик отлично видит все страницы любого сайта, не отдающие ошибку 404. И даже если по ним прописана директива на запрет сканирования.

удалено – число страниц, удаленных по запросу из результатов поиска.

Как видно из рисунка, каждая точка на любом графике дает всю информацию по четырем показателям за определенный промежуток времени (день – воскресенье, когда обновляются недельные данные в отчетах вебмастера Гугла). Такая информация показана в отдельной табличке с цифрами по каждому графику.

Что можно увидеть в отчете “Статус индексирования”

Во-первых, глядя на полученные данные по графику “заблокировано в файле robots.txt”, Вы можете оценить правильно ли работают Ваши запретные директивы. Если желтый график все время стремиться в верх, это говорит о явной проблеме в файле robots.txt. В таком случае стоит внимательно проверить каждую директиву. Возможно найдутся ошибки или придется прописать новые правила для поискового робота.

Во-вторых, при правильно настроенной индексации, число проиндексированных страниц должно все время увеличиваться. Если этого не наблюдается, значит Гугл не правильно собирает с Вашего сайта информацию. Возможно есть ошибки в том же файле robots.txt, появился дублирующийся контент, Гугл стал собирать ненужный мусор из-за несовершенства CMS и т.д. Но вот в моем случае синий график сначала шел рывками, а потом набрав максимум стал в конце июля этого года стремительно снижаться. Это говорит о том, что из индекса стали исчезать дубли (об этом я писал выше).

В-третьих, если в графике проиндексированных страниц есть скачки, которые показывают сильное уменьшение документов в индексе, то значит у Вас проблемы с доступом к веб-ресурсу. Возможно есть перегрузки в работе из-за увеличения скорости загрузки страниц Вашего сайта, или появилось больше страниц с ошибкой 404 (например, при резком изменении структуры) и т.д. В таком случае нужно срочно принимать меры, иначе можно получить массовое падение проиндексированных страниц в Гугле. А это влечет обвалом поискового трафика.

В-четвертых, большое количество дублирующих страниц (огромная разница данных красного и синего графика, если все остальные варианты ошибок исключены) говорит о том, что на Вашем сайте неправильно настроены канонические версии страниц или есть дублирующий контент. Если не принять вовремя необходимые меры, Гугл насобирает огромное число дублей в свой индекс, которые потом очень сложно вытащить назад. Плюс к тому же дублирующие страницы никак не способствуют поднятию видимости сайта, а скорее наоборот – позиции по многим запросам могут просесть.

На этом мой ликбез о том, как самому быстро оценить индексацию страниц своего сайта, считаю завершенным. Как я и говорил, если у Вас есть небольшие вопросы, задавайте их в комментарии. Если для ответа нужен график “Статус индексирования”, оставляйте ссылку на скриншот с ним. Если же Ваш вопрос требует пристальное внимание seo-специалиста, то всегда на помощь придут мои консультации.

С уважением, Ваш Максим Довженко

Понравилась статья?

Подписывайтесь на новости сайта!

Получайте новые статьи блога прямо на свой e-mail:

Вверх