Обновлено 28.07.2017г. 07:37 (UTC+3)

Проблемы с индексацией сайта и способы их решения

Содержание статьи

Проблемы с индексацией – головная боль для всех специалистов по продвижению сайтов. Не в индексе может оказаться значительная часть страниц или весь ресурс целиком. Почему так происходит? Для ответа на этот вопрос нужно проводить анализ сайта, отвечая на ряд стандартных вопросов. Это в большинстве случаев позволит найти причину и исправить проблему. Можно выделить 5 главных факторов, из-за которых страницы не индексируются либо проходят индексацию с трудом:

  • поисковые роботы не знают о сайте или отдельных его страницах;
  • сайт целиком или его часть недоступны для индексирования;
  • ресурс занесен в черный список;
  • есть проблемы в технической части ресурса;
  • определенные части сайта (разделы, страницы) некачественные.

Пройдемся по пунктам и рассмотрим, как решать каждую из перечисленных проблем.

Проблемы индексации сайта

Поисковым роботам ничего не известно о сайте/страницах

Почему такое случается? Есть несколько причин. Например, с момента публикации страниц прошло мало времени. Роботу необходим определенный промежуток времени для того, чтобы зайти на сайт и обнаружить новую ссылку (или чтобы обработать информацию, если вы сами сообщили о новом документе). Если вы видите, что робот заходил на сайт, но страница в индексе так и не появилась – дождитесь апдейта Яндекса. Страницы попадают в основной индекс Яндекса примерно за 35 дней.

У Google это происходит быстрее – нужно всего несколько дней: обычно до семи.

Вторая причина – на сайт или страницу нет ссылок. Если ресурс редко обновляется, робот здесь тоже будет редким гостем. Поэтому, добавляя новую страницу, нужно сделать ссылку на нее с главной страницы или позаботиться о ссылках с авторитетных тематических ресурсов.

Сайт или его страницы недоступны для индексирования

Владелец сайта может по ошибке закрыть доступ робота к определенным разделам или страницам. Перечислим несколько причин, почему часть ресурса может оказаться недоступной для робота.

Первая – домен не делегирован. Это может случиться из-за сторонней жалобы (например, если вы разместили на сайте пиратский контент). Еще вариант – если вновь купленный домен делегирован только новому владельцу.

Вторая причина – закрытый доступ к страницам через robots.txt. Это может быть сделано случайно – например, если вы забыли снять директиву Disallow после разработки и тестирования нового ресурса. Также доступ может быть закрыт через IP из-за его попадания в черный список, но это случается весьма нечасто.

Также поисковики некачественно индексируют сайты с flash или ajax-элементами. Посмотреть, индексируются ли эти элементы, можно через панель вебмастеров Google (функция «Посмотреть как Googlebot»).

Еще один фактор недоступности страниц – noindex. Причем, он может не закрывать новые страницы, но в избытке находиться на сайте, из-за чего робот «не видит» нового контента.

Сайт под санкциями поисковых систем

Сайт занесен в черный список

Одна из причин – санкции поисковых систем. Вы можете даже не знать об этом (например, если покупаете домен). Причинами для наложения санкций служат:

  • использование агрессивных методов продвижения;
  • отсутствие ценности для пользователей (сайт создан только для продвижения, например, с целью рекламы);
  • сайт является копией (аффилиатом);
  • у домена негативная история.

В зависимости от причины попадания в черный список нужно выстраивать стратегию по выводу из него, но лучше всего туда не попадать – и проверять домены перед покупкой.

Распространение вирусов через сайт – еще одна причина попадания под санкции. Причем, это может быть не по вашей вине: сайт могут сломать и распространять через него вредоносный код. Обнаружив это, поисковый робот прекращает индексацию до тех пор, пока доверие к ресурсу не будет возвращено. Следует регулярно проводить мониторинг ресурса, чтобы не допускать подобных ситуаций.

Технические ошибки

Очень часто причиной проблемной индексации служит банальная техническая ошибка. Устраните ее – и индексация будет налажена. Среди распространенных технических ошибок выделим четыре.

Первая - некорректный http-заголовок. У страниц, которые должны попадать в индекс, код ответа должен быть 200. Можно проверять это различными плагинами, но куда проще посещать панель вебмастеров – если робот обнаружит ошибку, он об этом сообщит.

Следующая причина - некорректный DOCTYPE: например, наличие в коде дополнительных тегов <script> или <?xml, которые не дают страницам попасть в индекс.

Некорректными могут быть и редиректы – например, использование 302 вместо 301 либо применение rel=“canonical” для всех страниц.

Также могут быть общие проблемы с кодировкой – например, использование различных кодировок для заголовка, мета-тегов и контента. Робот «увидит» перед собой набор нечитаемых символов и посчитает контент некачественным.

Проблемы с индексацией некачественных страниц

Страницы или разделы сайта некачественные

Если с технической стороны обнаружить проблемы не удалось, если за сайтом не замечено агрессивных методов оптимизации, робот начнет постепенную индексацию ресурса. Для начала будет проиндексировано несколько страниц, после будет период накопления статистических данных – если качество страниц окажется высоким, робот начнет индексацию уже большего количества документов на сайте. В противном случае индексации не будет.

Как он определяет, что страницы некачественные? Первая причина – неуникальный контент. Причем, это касается контента, который просто скопирован с других проиндексированных ресурсов или дублирован на нескольких страницах в пределах одного сайта.

Также индексации не будет, если объем уникального текстового контента на одной странице – меньше 500 символов.

Если вы не нуждаетесь в объемном текстовом контенте, позаботьтесь о других факторах – например, тематическом фото или видео на странице, отзывах и т.п. Для поиска внутренних дубликатов можно использовать сервисы комплексного анализа:

Для проверки уникальности контента в Сети лучше всего использовать сервисы text.ru и content-watch.ru.

Причиной плохого качества страниц могут послужить стандартизированные заголовки и тексты – например, если заголовки идентичные, с заменой всего одного-двух слов. Обычно это случается, если доверить написание мета-тегов автоматизированным плагинам.

Причиной плохого качества, по мнению поискового робота, может стать глубокая вложенность страницы (выше 4 уровня), переизбыток страниц 404 или медленная скорость отдачи страниц – в общем, проблемы с индексацией могут возникнуть из-за неправильной внутренней структуры сайта. Проверка этого фактора должна быть комплексной, и лучше доверить ее специалисту. Некоторые тонкости структурного построения ресурса я описал в статье Создание структуры сайта.

Способы ускорения индексации сайта

4 способа ускорения индексации сайта

  1. Соцсети. Самый быстрый способ индексации на сегодняшний день – добавление ссылки на нужную страницу в Твиттер. Индексация займет от 10 минут до 24 часов – все зависит от авторитетности аккаунта и социальной активности (количества ретвитов). Однако следует помнить, что влияние соцсетей на индексацию достаточно спорное: гарантий при этом ждать не нужно. Но ссылки на страницу в Google+, Фейсбук и Вконтакте будут не лишними.
  2. Гостевой постинг в топовых СМИ и блогах.
  3. Частое обновление контента – от него зависит частота визитов робота на сайт.
  4. Регистрация в Яндекс.Каталоге и DMOZ. Это хорошо скажется не только на индексации, но и на позициях сайта.

Почему первые два шага важны? Потому что ТОПовые сайты, СМИ и соцсети обслуживает быстроробот Яндекса. Он обеспечивает почти мгновенное попадание в индекс ссылок на этих сайтах. Частое обновление информации, характерное для социальных сетей и СМИ, способствует тому, что робот присутствует там постоянно. Решение любых проблем с индексацией – комплексная задача. Она требует профессионального участия и одновременного решения всех проблем. Это под силу опытному специалисту, постоянно отслеживающему тенденции. Поэтому обращайтесь к профессионалу, если у вас возникли сложности с индексацией вашего ресурса.