Broken link checker – поиск битых ссылок на сайте

Оптимизация сайта 12.09.2014 Комментарии: 50 16651 просмотров

Поиск битых ссылок на сайтеВсем привет! Буквально недавно я боролся с вредоносным кодом на своем блоге и смог его победить. Об этом я расскажу в свежем выпуске дайджеста. Во время этой борьбы я решил еще и подчистить свой блог от ненужных элементов, которые тем или иным образом мешали нормальному поисковому продвижению. В этом посте я расскажу Вам о том, как я периодически делаю проверку наличия битых ссылок на сайте с помощью онлайн сервиса Broken link checker. Предлагаю Вам мое простое пошаговое руководство в картинках.

Содержание

Что такое битые ссылки

Определение

Битая ссылка – это переход на несуществующие страницы сайта или блога, на документ или картинку. Если посетитель сайта перейдет по этой ссылке, ему браузер покажет сообщение о том, что данный элемент веб-ресусра не найден.

Причины возникновения

Их может быть несколько, но все они говорят о том, что выход на данный документ (страницу, картинку) невозможен из-за его отсутствия. Вот основные причины возникновения битых ссылок для страниц:

  • удаление страницы, на которую ведет ссылка. Обычно получается из-за того, что веб-мастер или удалил этот html-документ (пост на блоге, например), или полностью ликвидировал весь сайт.
  • редизайн сайта. В таком случае часто происходят изменения, которые полностью или частично меняют структуру ресурса (меняются или появляются разделы, создаются новые или частично редактируются старые страницы). Здесь урл страницы не соответствует тому адресу, на который вела битая ссылка (например, из-за укорачивания урла постов блога, удаляя элемент категорий – об этом я рассказывал в одной из своих seo-шпаргалок).
  • банальная опечатка веб-мастреа при прописке урла сайта, на которую планируется ставиться ссылка. Часто бывает из-за того, что в адресе ссылки стоит два http или пропущен один символ.

Последствия

Для посетителей битая ссылка может говорить о том, что или веб-мастер сайта не следит за адресатами своих внешних ссылок, или ему абсолютно неважно, куда ведут эти переходы. В большинстве случаев пользователи, увидев сообщение о несуществующей странице, уже не вернуться назад. В любом случае, доверие к такому владельцу сайта не увеличивается. :)

Для поисковых систем битая ссылка – это просто ошибка в коде сайта. Такая же, как если бы на посте блога или на странице интернет-магазина шла внутренняя ссылка на несуществующий документ. Но хорошо, если она одна или две. Если же ошибок много, это негативно может сказаться на индексировании ресурса – поисковым системам не нужны “глючные” сайты в выдаче.

к меню ↑

Как найти битые ссылки на сайте

Да, битая ссылка на своем сайте – это вещь крайне неприятная как для самого владельца, так и для его посетителей. Но если таких проблемных переходов много (а с течением времени битые ссылки на большинстве ресурсах растут как на дрожжах), они могут принести большие проблемы. Поэтому от них нужно периодически избавляться. Для этого существуют различные программы, плагины и онлайн-сервисы.

Популярные средства по поиску битых ссылок на сайте

Программы являются самыми универсальными средствами. Как правило, они выдают много различной информации не только по битым ссылкам. Это их плюс. А минус в том, что из-за многообразия функций пользователю нужно хорошо знать интерфейс софта. Лучшие бесплатные программы – Netpeak Spider и Xenu’s Link Sleuth.

Плагины менее громоздки и более узкоспециализированные – решают конкретную задачу (поиск битых ссылок). В этом заключается их плюс. Минус их в том, что такие плагины должны устанавливаться в тело сайта (блога) под конкретную CMS. Для ресурсов на Вордпрессе самым популярным является Broken link checker plagin.

В последнее время все более актуальными становятся онлайн-сервисы для seo анализа сайта. Они обладают всем функционалом по поиску битых ссылок, которым обладают и универсальные программы. Но их интерфейсы очень просты. И самое важное – не требуется привязка к сайту (как в случае для плагина) и не требуется наличие специального софта и операционной системы – онлайн-сервис работает в любом браузере.

Лично я использую сервис Online Broken Link Checker. Теперь я покажу Вам как в нем нахожу битые ссылки.

к меню ↑

Руководство по поиску битых ссылок на сайте

к меню ↑

Онлайн сервис Broken link checker

Для нахождения битых ссылок в Online Broken Link Checker, переходим на главную страницу сервиса. Вводим данные в специальный блок и нажимаем кнопку Find broken links:

Указываем домен анализируемого сайта

Здесь нужно еще выбрать режим поиска битых ссылок – обычный и расширенный. При обычном режиме чекер будет искать битые ссылки в единственном числе на странице. При расширенном укажет каждый нерабочий переход. (Это бывает актуальным для блогов, которые на одной странице могут иметь по нескольку ссылок с одинаковыми неработающими урлами комментаторов – об этом ниже).

Затем сервис начинает поиск битых ссылок. За время сканирования чекер отражает каждый несуществующий переход на экране. После окончания проверки сайта к списку найденных битых ссылок добавляется их количество и число просканированных страниц ресурса:

Отчет готов

Переходим к изучению предоставленного отчета. Он выглядит в виде таблицы, столбцы которого указывают на битую ссылку, ее нахождение на странице сайта, скриншот с отрывком кода с неработающим переходом и пояснение ошибки.

Об ошибках расскажу немного подробнее. Всего существует несколько постоянных проблем (битые ссылки – это ошибка 404 и bad host), и различные ошибки сканирования (empty, time out и т.д.):

Варианты проблем, по которым сервис Broken Link Checker видит битую ссылку

Самые популярные причины возникновения ошибки при сканировании – 404 ошибка, говорящая об отсутствии страницы ресурса, на которую идет битая ссылка или bad host (нет домена на сервере).

к меню ↑

Анализ битых ссылок

Каждый пункт таблицы рассматриваем по следующему плану:

План анализа битых ссылок

Первым делом смотрим, по какой проблеме сервис классифицирует битую ссылку. Для этого обращаем свое внимание на соответствующий раздел в таблице (на картинке он обозначен под цифрой 1). В качестве примера я взял битую ссылку, которая возникла в одном из комментариев на моем блоге.

Как видим на картинке, битая ссылка возникла из-за отсутствия страницы, на которую идет переход в комментарии. Для подтверждения этого ввожу адрес страницы, на которую идет битая ссылка (в моем примере это адрес блога interesenki.ru) и получаю сообщение об отсутствии домена на сервере:

Домен отсутствует на сервере

Убедившись в наличие ошибки, нажимаю в таблице на ссылку под номером 2 – пришло время узнать, где находиться неработающий переход. В моем случае битая ссылка была в одном из комментариев на посте:

Сервис показывает, где на странице анализируемого сайта находиться ошибка

Если же Вы не смогли сразу определить место несуществующей ссылки (например, в моем случае из-за большого количества комментариев с этим доменом), стоит нажать цифру 3 в отчете и посмотреть отрывок кода страницы анализируемого ресурса:

Отрывок кода страницы, где находится битая ссылка

к меню ↑

Удаление битых ссылок в комментариях

После того, как мы нашли битые ссылки с помощью сервиса, нужно их исправить. В моем примере неработающий переход возник из-за отсутствия сайта одного из моих комментаторов. Так как ошибка возникла не из-за моей ошибки, мне следует убрать из комментария адрес ресурcа своего читателя:

Удаляю проблемную ссылку в комментарии

Кстати, обычно постоянные читатели на блогах оставляют не один комментарий. И как правило они есть на разных страницах. Поэтому, после того, как я разобрался с одной битой ссылкой, указанной сервисом Broken Link Checker, сразу ищу другие проблемные сообщения. Для этого в разделе блога “Комментарии” задаю поиск по проблемному адресу сайта читателя и получаю весь список его сообщений:

Битые ссылки в комментариях читателя

На рисунке показаны не только комментарии с аналогичной битой ссылок, но и специальный значок 404-й ошибки (в зеленой рамке). Это сам CMS WordPress указывает на то, что блога interesenki.ru на сервере нет.

И раз затронули тему комментариев, укажу еще на одну частую причину возникновения битых ссылок. Она возникает из-за шаблона, который автоматом указывает в форме для комментария адрес ресурса посетителя в виде “Ваш сайт” (как в моем случае). И если домен сайта не прописывается, то в сообщении вместо адреса блога читателя стоит такая строка:

Причина возникновения битой ссылки из-за в комментариях

Увы, такой “виртуальный адрес” тоже считается битой ссылкой. Поэтому при модерации я стараюсь всегда убирать такой пустой урл.

к меню ↑

Как удалить битую ссылку в статье

Помимо комментариев часто битые ссылки на блогах и на коммерческих сайтах появляются в контенте. Бывает так, что вчера ссылка работала – ссылалась на чужую страницу, а сегодня уже выдает сообщение с ошибкой (сайт переехал, его удалили, поменялась его структура). Поэтому такие переходы тоже нужно лечить.

На примере все того же сервиса покажу план поиска и удаления битой ссылки на моем блоге. Вот очередной пример:

Поиск битой ссылки в тексте поста

Сервис Broken Link Checker нашел битую ссылку в одном из моих прошлых ежемесячных обзоров (эх, классная когда-то тема была!). Она ссылалась на статью моего земляка Дениса Тумиловича, автора сайта monetablog.ru. При проверке данный блог на момент проверки не работал (сейчас он заражен вирусом). Поэтому я принял решение удалить неработающий переход (жаль, конечно – пост Дениса был классным):

Удаление в CMS WordPress битой ссылки в тексте

к меню ↑

Рекомендации и советы по поиску битых ссылок на блоге

Как видите, найти битую ссылку несложно – сервис Broken Link Checker четко выполняет свои функции. Но из своего опыта использования чекера скажу, что если сайт запущен, то копаться в отчете придется очень долго. Особенно, если включен расширенный режим поиска. Чтобы ускорить задачу, дам несколько простых советов (в основном это касается только блоггеров):

к меню ↑

Расширенный поиск битых ссылок в комментариях

Как я уже говорил, многие блоггеры оставляют в комментариях адреса своих блогов. И зачастую, если эти сайты не существуют или к ним запрещен доступ, они генерируют битые ссылки. В моем мануале я указал, как можно их найти на своем блоге, и как удалить.

Но как показывает практика, ряд блоггеров вместо адреса своего блога указывают не ее домен (главная страница), а урл конкретного поста. В таком случае, так как блог читателя не открывается, то и конкретный пост тоже не будет виден браузером. Но в моем примере мы искали битые ссылки только по домену. Чтобы ускорить процесс нахождения переходов на несуществующие урлы статей проблемного блога, рекомендую в поиске наряду с адресом главной прописывать и почту читателя:

Поиск комментариев по урлу сайта и почте читателя

Как видно из примера, по запросу адреса домена читатель оставил 17 комментариев, а по почте – 37. Таким образом можно ускорить процесс удаления битых ссылок.

к меню ↑

Поиск битых ссылок на домены с разным написанием урла

Такие случае редки, но тоже могут иметь место. Это когда адрес главной пишется со слэшем на конце урла или без:

Поиск битых ссылок на домены с разным написанием урла

На этом мой практический мануал по поиску битых ссылок закончен. В конце хочу дать еще один важный совет – делайте такую проверку ежемесячно. Ведь глазом не успеете моргнуть, как появятся нерабочие переходы.

Желаю удачи в чистке своего сайта! С уважением, Ваш Максим Довженко

Понравилась статья?

Подписывайтесь на новости сайта!

Получайте новые статьи блога прямо на свой e-mail:

Вверх