Домой /  Интернет / Какая кс лучше индексируется поисковиками. Бортовой журнал. Проблемы индексации и выпадения страниц из индекса

Какая кс лучше индексируется поисковиками. Бортовой журнал. Проблемы индексации и выпадения страниц из индекса

Индексация сайта в поисковиках - как она происходит и как ее ускорить - 5.0 out of 5 based on 1 vote

После создания собственного сайта многие веб-мастера расслабляются и думают о том, что самое сложное уже позади. На самом деле это не так. В первую очередь сайт создается для посетителей.

Ведь именно посетители будут читать страницы со статьями, покупать товары и услуги, размещенные на сайте. Чем больше посетителей, тем больше прибыль. А трафик с поисковиков – это основа всего, поэтому так важно чтобы индексация сайта проходила быстро и страницы держались в индексе стабильно.

Если трафика нет, то о сайте мало кто вообще узнает, особенно данное положение актуально для молодых интернет-ресурсов. Хорошая индексация способствует скорейшему попаданию страницы в топ поисковых систем и как следствие, привлечение большого количества целевых посетителей.

Что представляет собой индексация и как она происходит

Для начала нужно понять, что это такое. Индексация сайта - это процесс сбора информации со страниц сайта с последующим занесением ее в базу данных поисковой системы. После этого происходит обработка полученных данных. Далее, через некоторое время, страница появится в выдаче поисковика и люди смогут находить ее, используя данную поисковую систему.

Программы, которые осуществляют сбор и анализ информации, называются поисковыми роботами или ботами. Каждый поисковик обладает собственными роботами. У каждого из них свое название и предназначение.

В качестве примера можно выделить 4 основных типа поисковых роботов Яндекса:

1. Робот, индексирующий страницы сайта. Его задача – обнаруживать и заносить в базу данных найденные страницы с контентом.

2. Робот, индексирующий картинки. Его задача – обнаруживать и заносить в базу поисковика все графические файлы со страниц сайта. Затем эти картинки могут быть найдены пользователями в поиске по изображениям от Google или в сервисе Яндекс.Картинки.

3. Робот, индексирующий зеркала сайтов. Иногда сайты имеют несколько зеркал. Задача данного робота – определять эти зеркала посредством информации из robots.txt, после чего выдавать пользователям, в поиске, лишь главное зеркало.

4. Робот, проверяющий доступность сайта. Его задача – периодически проверять добавленный посредством «Яндекс.Вебмастера» сайт на предмет его доступности.

Помимо вышеперечисленных есть и другие типы роботов. К примеру, роботы, индексирующие видеофайлы и фавиконки на страницах сайта, роботы, выполняющие индексацию «быстрого» контента, а также роботы, проверяющие работоспособность интернет-ресурса, размещенного в Яндекс.Каталоге.

Индексация страниц сайта поисковиками обладает своими особенностями. Если робот обнаруживает на сайте новую страницу, то она заносится в его базу данных. Если же робот фиксирует изменения в старых страницах, то их версии, ранее занесенные в базу данных, удаляются и заменяются новыми. И все это происходит на протяжении определенного периода времени, как правило, 1-2 недель. Такие длительные сроки объясняются тем, что поисковым роботам приходится работать с большим объемом информации (ежедневно появляется большое количество новых сайтов, а также обновляются старые).

Теперь о файлах, которые умеют индексировать боты поисковых систем.

Кроме веб страниц поисковики индексируют и некоторые файлы закрытых форматов, но с определенными ограничениями. Так в PDF роботами считывается лишь текстовое содержимое. Flash-файлы довольно часто не индексируются вообще (либо там индексируется лишь текст, размещенный в специальных блоках). Также роботами не индексируются файлы, обладающие размером больше 10 мегабайт. Лучше всего поисковые системы научились индексировать текст. При его индексации допускается минимальное количество ошибок, контент заносится в базу в полном объеме.

Если обобщить, то многие поисковики в настоящий момент могут индексировать такие форматы, как TXT, PDF, DOC и DOCX, Flash, XLS и XLSX, PРT и РРТХ, ODP, ODT, RTF.

Как ускорить процесс индексации сайта в поисковых системах

Многие веб-мастера задумываются о том, как ускорить индексацию. Для начала следует понять, что такое сроки индексации. Это время между посещениями сайта поисковым роботом. И время это может варьироваться от нескольких минут (на крупных информационных порталах) до нескольких недель или даже месяцев (на забытых и заброшенных маленьких или новых сайтах).

Нередки случаи кражи контента. Кто-то может просто скопировать вашу статью и разместить у себя на сайте. Если поисковик проиндексирует эту статью раньше чем это произойдет на вашем сайте, то автором поисковики будут считать именно этот сайт, а не ваш. И хотя сегодня появились некоторые инструменты позволяющие указать авторство контента, скорость индексации страниц сайта не теряет своей актуальности.

Поэтому ниже дадим советы насчет того, как всего этого можно избежать и ускорить индексацию своего ресурса.

1. Использовать функцию «Add URL» (Добавить URL) - это так называемые аддурилки, представляющие собой формы в которые можно ввести и добавить адрес любой страницы сайта. Страница в этом случае будет добавлена в очередь на индексацию.

Она есть во многих крупных поисковиках. Чтобы вам не пришлось искать все адреса форм для добавления страниц сайта мы их собрали в отдельной статье: " ". Данный метод нельзя назвать 100-процентной защитой от плагиата, но это хороший способ сообщить поисковику о новых страницах.

2. Зарегистрировать сайт в «Инструментах для веб-мастера» от Google и сервисе Яндекс.Вебмастер. Там можно посмотреть, сколько страниц сайта уже проиндексировалось, а сколько не проиндексировалось. Можно добавить страницы в очередь на индексацию и сделать много чего еще, при помощи доступных там инструментов.

3. Сделать карту сайта в двух форматах – HTML и XML. Первая нужна для размещения на сайте и для удобства навигации. Вторая карта нужна для поисковых систем. В ней содержатся текстовые ссылки на все страницы вашего сайта. Следовательно, при индексации робот не упустит ни одну из них. Карту сайта можно сделать при помощи плагинов для CMS или при помощи многочисленных онлайн-сервисов.

В качестве отличных решений для ее создания можно привести следующие:

  • Для CMS Joomla компонент Xmap;
  • Для WordPress плагин Google XML Sitemaps;
  • Для CMS Drupal модуль SitemapXML;
  • Универсальным инструментом для создания карты сайта может послужить сервис www.mysitemapgenerator.com.

4. Анонс статей в социальных сетях - Google +1, Twitter, Facebook, Vkontakte. Сразу после добавления новой статьи на сайт делайте ее анонс на своей странице Google +, Twitter ленте и страницах в Facebook и Vkontake. Лучше всего поставить на сайт кнопки социальных сетей и добавлять туда анонсы просто нажимая на кнопки. Можно настроить автоматические анонсы в Twitter и Facebook.

5. Выполняйте кросспостинг в различные блог платформы. Можете создать себе блоги на таких сервисах как: Li.ru, Livejournal.com, wordpress.ru, blogspot.com и публиковать там краткие анонсы ваших статей со ссылками на их полные версии на вашем сайте.

6. Сделать RSS ленту сайта и зарегистрировать ее в различных RSS каталогах. Найти их адреса вы можете в статье: " ".

7. Частота обновлений сайта. Чем чаще на вашем сайте будут появляться новые материалы, тем чаще поисковые роботы будут его посещать. Для нового сайта это лучше всего делать каждый день, ну в крайнем случае через день.

9. Размещайте на своем сайте лишь уникальный контент. Это универсальное правило, позволяющее улучшить не только процесс индексации. Чем уникальнее будет материал, тем лучше поисковики будут относиться к вашему сайту. Тем чаще поисковые роботы будут заходить к вам в гости.

Данных методов по ускорению индексации будет вполне достаточно для молодого или среднего по возрасту сайта. Они не будут занимать у вас много времени и имеют хороший эффект.

Запрет индексации страниц

В некоторых случаях веб-мастеру нужно закрыть сайт от индексации или закрыть его отдельные страницы и разделы. Для чего это может потребоваться? К примеру, часть страниц вашего сайта не содержит полезной информации, это могут быть разного рода технические страницы. Либо вам нужно закрыть от индексации ненужные внешние ссылки, баннеры и так далее.

1. Robots.txt.

Закрыть отдельные страницы и разделы ресурса от индексации можно посредством файла robots.txt. Он помещается в корневую директорию. Там прописываются правила для поисковых роботов по части индексации отдельных страниц, разделов и даже для отдельных поисковиков.

При помощи специальных директив этого файла можно очень гибко управлять индексацией.

Приведем несколько примеров:

Запретить индексацию всего сайта, всеми поисковыми системами можно при помощи следующей директивы:

User-agent: * Disallow: /

Запретить индексацию отдельной директории:

User-Agent: * Disallow: /files/

Запретить индексацию страниц url которых содержит "?":

User-agent: * Disallow: /*?

И т. д. директив и возможностей у файла robots.txt множество и это тема отдельной статьи.

2. Также есть тег и мета тег noindex и nofollow.

Чтобы запретить индексацию определенного содержимого на странице достаточно его поместить между тегами , но эти теги работают только для поисковой системы Яндекс.

Если нужно закрыть от индексации отдельную страницу или страницы сайта можно использовать мета-теги. Для этого на странице вашего сайта между тегами необходимо добавить следующее:

Если добавить:

то документ также не будет проиндексирован.

Если добавить:

то робот поисковой машины не будет идти по ссылкам размещенным на данной странице, но саму страницу индексировать будет.

При этом то, что будет указанно в мета тегах будет иметь преимущество перед директивами файла robots.txt. Поэтому если вы запретите индексацию определенной директории вашего сайта в файле robots.txt, а на самих страницах сайта, которые относятся к данной директории будет указан следующий мета-тег:

То данные страницы все равно будут проиндексированы.

Если сайт построен на какой-то CMS, то в некоторых из них есть возможность при помощи специальных опций закрыть страницу к индексации. В других случаях эти мета теги придется вставлять на страницы сайта в ручную.

В следующих статьях мы подробно рассмотрим процедуру запрета индексации и все, что с этим связано (использование файла robots.txt, а также тегов noindex и nofollow).

Проблемы индексации и выпадения страниц из индекса

Существует множество причин, по которым может не происходить индексация интернет-ресурса. Ниже мы перечислим самые распространенные.

1. Неправильно настроен файл Robots.txt или неверно указаны .

2. Домен вашего сайта уже использовался для определенного сайта и имеет плохую историю, скорее всего ранее на его был наложен какой-то фильтр. Чаще всего проблемы подобного рода касаются индексации именно Яндексом. Страницы сайта могут при первой индексации попадать в индекс, затем полностью вылетают и больше не индексируются. При обращении в службу поддержки Яндекса, вам скорее всего скажут, чтобы вы развивали сайт и все будет хорошо.

Но как показывает практика и после 6 месяцев публикации на сайте качественного уникального контента движений в позитивную сторону может и не быть. Если у вас подобная ситуация и сайт, не индексируется на протяжении 1 - 2 месяцев, то лучше . Как правило после этого все становится на свои места и страницы сайта начинают индексироваться.

3. Неуникальный контент. Добавляйте на сайт только уникальный материал. Если на страницах вашего сайта размещается большое количество копипаста, то не удивляйтесь, что со временем эти страницы могут выпадать из индекса.

4. Наличие спама в виде ссылок. На некоторых сайтах страницы буквально завалены внешними ссылками. Веб-мастер обычно размещает все это для того, чтобы заработать побольше денег. Однако конечный результат может быть очень печальным – определенные страницы сайта да и весь сайт может быть исключен из индекса, либо могут быть наложены какие-то другие санкции.

5. Размер статьи. Если вы просмотрите исходный код какой-либо страницы вашего сайта, то увидите, что текст самой статьи занимает не так много места по сравнению с кодом других элементов (шапка, футер, сайдбар, меню и т.д.). Если статья будет слишком маленькой, то она и вовсе может потеряться в коде. Поэтому также могут возникнуть проблемы с уникальностью такой страницы. Поэтому старайтесь публиковать заметки, объем текста в которых не меньше 2000 знаков, с таким контентом вряд ли возникнут проблемы.

Как сделать проверку индексации сайта

Теперь поговорим о том, как провести проверку индексации вашего интернет ресурса и узнать, сколько именно страниц проиндексировано.

1. Прежде всего, попробуйте вбить в простой поиск того же Google или Яндекса. В полученных результатах должна быть данная страница. Если страницы нет, то значит она не проиндексирована.

2. Чтобы проверить индексацию всех станиц сайта в Яндексе достаточно в поисковую строку вставить host:ваш-сайт.ru | host:www.ваш-сайт.ru и произвести поиск. Для Google достаточно вставить в поисковую форму site:ваш-сайт.ru

3. Также можно проверить свой сайт при помощи такого сервиса, как pr-cy.ru. Тут все просто и понятно устроено. Нужно просто вбить адрес вашего ресурса в поле, находящееся по центру, а затем нажать кнопку «Анализировать». После анализа вы получите результаты проверки и узнаете, сколько страниц проиндексировано в том или ином поисковике (сделать это можно в соответствующем разделе под названием «Основные показатели сайта»).

4. Если ваш сайт добавлен в сервис Яндекс Веб-мастер, то там тоже можно отслеживать индексацию страниц веб-сайта данным поисковиком.

Многие владельцы и администраторы посещаемых форумов, построенных на популярном движке SMF (www.simplemachines.org) рано или поздно задумываются вопросом индексации своего форума поисковыми системами. Однако, довольно быстро они убеждаются в том, что установленный «из коробки» форум не индексируется, или индексируется неправильно. Что нужно сделать, чтобы контент форума был проиндексирован верно? Я расскажу об этом на примере Яндекса.

Одним из основных инструментов для отслеживания процесса индексации Яндексом является сервис Яндекс.Вебмастер . С помощью этого сервиса мы можем увидеть ошибки в процессе индексации форума. Если после установки нового форума мы добавим его в Яндекс.Вебмастер и дождемся индексации, то увидим, что практически все страницы форума в индекс не попали. Происходит это потому, что разработчики SMF, видимо утомившись объяснять пользователям тонкости взаимодействия форума и поисковых систем, просто добавили на все страницы тег:


Когда такой тег встречает поисковик, он не индексирует эту страницу. Исправим это, внеся изменения в файл index.template.php /Themes/default/index.template.php ). В зависимости от Вашего опыта указанную выше строку можно удалить или модифицировать таким образом:


В этом случае будут проиндексированы и текст и ссылки. Индексирование ссылок влияет на передачу веса вашей страницы (Google PR или ТИЦ у Яндекса) тому сайту, на который стоит ссылка.

Теперь, когда мы разрешили поисковикам собирать информацию для индекса с нашего форума, нужно сделать так, чтобы в индекс попали нужные страницы и не попали ненужные. Дело в том, что движок форума SMF, как и многих других, устроен таким образом, что одно и тоже сообщение можно прочитать множеством способов, и делать все эти способы доступными поисковикам не следует, так как нагрузка, создаваемая поисковиками при индексации может превысить лимиты, установленные на хостинге, где Вы размещаете форум, не говоря уже о том, что это просто бессмысленно. Для того, чтобы закрыть ненужные страницы на форуме, воспользуемся файлом robots.txt (рекомендую ознакомится с общим описанием этого файла на сайте robotstxt.org.ru , а также с описанием того, как Яндекс обрабатывает этот файл: http://help.yandex.ru/webmaster/?id=996567). Для форума, установленного в корень сайта этот файл будет выглядеть следующим образом:

User-agent: *
Disallow: /*.msg
Disallow: /*.new
Disallow: /attachments/
Disallow: /avatars/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /Themes/
Disallow: /Games/
Disallow: /*sort
Disallow: /*topicseen
Disallow: /*wap
Disallow: /*imode
Disallow: /*action

Вы можете добавить нужные Вам директивы в этот файл (указание на правильный Host, блоки, специфические для других поисковиков и т.п.). Не смотря на то, что по спецификации использование символов подстановки вроде «*» запрещено, абсолютное большинство поисковиков их интерпретируют верно, т.е. опасаться за правильность синтаксиса не нужно.

Чтобы поисковые системы правильно проиндексировали каждое сообщение на форуме сделаем следующее:

1. Уберем ссылку на на тему из сообщений внутри темы. Нужно внести изменения в файл
Display.template.php (для темы по-умолчанию он находится в /Themes/default/Display.template.php ). Нужно убрать ссылку и с названия темы и с картинки рядом с ней. Код, который нужно изменить находится после строки:

// Done with the information about the poster... on to the post itself.

2. Устанавливаем мод для форума, который позволит просматривать каждое сообщение отдельно: View Single Post .

После того, как доработаете свой форум приведенным выше способом, дождитесь, пока поисковые системы закончат его индексацию и убедитесь в отсутствии ошибок (используя, к примеру Яндекс.Вебмастер).

Для того, чтобы ссылки на Ваш форум присуствовали в поисковой выдаче сервиса «Яндекс.Поиск по блогам», используйте специальный плагин (официальная страница: http://nano.yandex.ru/project/yarss/ и версия для SMF 1.1.x: http://www.likhachev.net/projects/yarss/), который отдает RSS в нужном для этого сервиса формате. После установки этого плагина не забудьте добавить фид в сервис (если Вы это еще не сделали):

Довелось общаться с контент-менеджером нескольких топ сайтов. Не смог удержаться от соблазна узнать, какими основными приемами по оптимизации страницы руководствуются специалисты, чтобы сайт хорошо индексировался поисковиками. Публикую эти рекомендации тут.

Советы специалиста по написанию текстов и составлению страниц, для лучшей индексации поисковикам основаны на личном опыте и исследовании, которое моя знакомая проводила в течении нескольких лет и научилась эффективно применять, работая с клиентами.

Объем

Страницы, у которых объем меньше 1000 символов индексируются очень плохо, поэтому не ленитесь и описывайте свой продукт на страницах более развернуто. Рекомендованный объем до 1,5 тысяч символов с пробелами.

Уникальность

Текст должен быть уникальным. Уникальность можно проверять в Адвего или на content-watch.ru — она должна быть выше 95%. Эти инструменты не только оценят уникальность, но и покажут участки текста, которые надо отредактировать, чтобы страницы не попала в supplemental-список и не выдавалась при запросах.

Структура текста

  1. Анонс . Небольшой абзац с описанием основного ее смысла, предназначения. Анонс имеет большое значение: во-первых, прочитав его, человек должен заинтересоваться продуктом и перейти на полное описание; во-вторых, Яндекс формирует сниппет из начала текста. В нашем случае этого анонса.
  2. Основное описание. Первый абзац должен более глубоко раскрывать суть продукта, его особенности и предназначение. Первый абзац должен начинаться с ключевого слова. Затем можно написать об особенностях и перечислить характеристики и детали. Во втором абзаце должна содержаться ключевая фраза Вначале текста использовать высокочастотные ключи - дальше по убывающей.
  3. Короткое описание продукта списком. Не больше 5 позиций.
  4. Продолжение основного описания. Желательно раскрыть отличительные особенности в сравнении с конкурентами и позиции на рынке.
  5. Вывод - кому и почему мы рекомендуем использовать продукт. В последнем абзаце, желательно в последнем предложении, должна содержаться ключевая фраза .

Дескрипшен SEO

Не должен превышать 140 символов. Должен раскрывать смысл продукта, выводится сниппетом в Гугле. Обязательно использовать один хороший ключ.

Ключи

Ключи, которые вы используете в SEO должны быть равномерно разбросаны по тексту в любой последовательности. Имеет смысл жирным выделять ключевые слова.

Пассажи для Яндекса

Составляйте тексты так, чтобы внутри одного предложения, которое не разделено тегами, были ключевые фразы из потенциальных запросов в яндексе. Сама фраза может быть разбавлена другими словами, это не повредит выдаче.

Пример фразы: «доставка в днепропетровск»

Варианты текста: «…организовывает доставку в город Днепропетровск…» или «возможна доставка в города Украины: Днепропетровск, Харьков, Запорожье…»

Владельцу просто необходимо ждать момента, когда робот поисковой системы зайдет и проиндексирует страницу вашего сайта.

Как улучшить индексацию сайта в Яндекс и Google

Перед теми, кто создает сайт самостоятельно, встает, кажется, разумеющийся вопрос: как добавить свой ресурс в поисковую выдачу той или иной системы по заданному запросу? Ответ прост: владельцу просто необходимо ждать момента, когда робот поисковой системы зайдет и проиндексирует страницу вашего сайта.

Как только страницы вашего ресурса окажутся в индексе поисковика, они будут выводиться при поисковой выдаче.

Для большинства веб-мастеров эта проблема не является серьезной. Объемы их сайтов не превышают сотни страниц, и поисковый робот зачастую правильно индексирует содержимое. Тем не менее, стоит обратить внимание на несколько важных факторов при seo-оптимизации.

Обычно используют один из двух способов индексации:
Первый состоит в том, что владелец сам добавляет адрес сайта в специальное поле, которое отображается в панели веб-мастеров поисковой системы. В данном случае поисковая система оповещается о том, что появился новый еще не проиндексированный сайт. В порядке очереди робот заходит на каждый такой ресурс и индексирует.

Для правильной индексации достаточно указать только главную страницу, остальные робот найдет сам благодаря карте сайта. Карту сайта вы тоже загружаете самостоятельно. В интернете есть множество сайтов и программ, которые бесплатно генерируют вам карту в форматах.xml или.html

Второй способ заключается в том, что робот сам ищет ваш сайт. Вы поинтересуетесь: каким образом он делает это? Дело в том, что при индексации того или иного ресурса, робот проверяет ссылки размещенные на них. То есть если на ваш сайт уже есть ссылка на каком-либо ресурсе, проиндексированном, для примера Яндексом, то поисковой робот за короткое время сам посетит ваш ресурс и проиндексирует его. Опытные веб-мастеры полагают, что этот вариант гораздо более благоприятно сказывается на поисковой выдаче сайта. Для этого необходимо получить (или закупить) несколько ссылок и ждать прихода робота.

Конечно же, хочется как можно скорее увидеть свой сайт на страницах поисковика! Обычно робот индексирует страницы в сроки, не превышающие двух недель. Все зависит от загруженности поисковика. В плане индексации самый быстрый робот от Google. Через несколько часов после ручного ввода робот начинает его сканировать.

Робот, как и разработчики сайтов не любит сложные коды. Для наиболее удачной индексации я советую упростить его как можно сильнее и придерживаться следующих правил:

  1. Во-первых, доступ ко всем страницам должен быть не больше 3-х кликов, считая от главной страницы. В случае, когда это невозможно, создайте карту сайта. Она поможет роботу ориентироваться в ваших «джунглях».
  2. Во-вторых, будьте аккуратны при работе со скриптами. Поисковые роботы не умеют распознавать их. При использовании навигации, работающей на скриптах, обязательно дублируйте ссылки!
  3. В-третьих, не исключайте из внимания то, что поисковые роботы индексируют до 200 кб текста. Если вам важно, чтобы была проиндексирована вся страница, не делайте ее больше 100 кб.

Для поисковых роботов существует специальный файл, хранящийся в корне вашего хостинга. Он называется robots.txt . При помощи него можно управлять поисковым роботом, например, запретить или разрешить индексацию различных страниц.
В отличие от зарубежных поисковых роботов, российские понимают тег

< NOINDEX>

Который позволяет скрывать от робота отдельные части страницы. Для того чтобы полностью исключить возможность индексации, необходимо поместить данный тег в HEAD страницы.

Для того чтобы исключить из поисковой выдачи устаревшие ресурсы взамен свежим, поисковые системы осуществляют . Записи в базе данных постоянно обновляются. Не стоит бить тревогу если количество проиндексированных страниц внезапно изменилось.

Внимательно подходите к выбору хостинга. Если ваш сайт часто «падает», это ухудшает процесс его индексации. Робот просто не имеет доступа к ресурсу! Именно поэтому стоит трепетно подходить к выбору хостинга. Не стоит пренебрегать внешними ссылками. Они благотворно влияют на переиндексацию вашего сайта.

Проанализировав лог-файлы сервера, вы получите информацию о процессе индексации.