Запись вторая. Технический аудит сайта.
Если вы решили начать продвижение сайта, то для начало сайт нужно подготовить для продвижения. ДЛя этого нужно провести ряд мероприятий. В первую очередь технический аудит - проверить технические характеристики, Относящиеся ко всему сайту.
Итак, подробнее о техническом аудите.
Файл sitemap.xml
sitemap.xml – xml-карта сайта, которая помогает роботу индексировать сайт правильно и наиболее полно.
Файл нужно располагать в корневой папке домена так, чтобы он был доступен по адресу mydomen.ru/sitemap.xml. Это чисто технический файл, поэтому ссылок на страницах сайта на него не должно быть (встречал подобные ошибки).
Формат файла Sitemap описан на сайте http://www.sitemap.org/ru/. Существуют ограничения на размер файла и количество страниц, описываемых в нем. Карта сайта для большого сатйа может быть описана в нескольких файлах.
Для популярных движков существуют специальные дополнения, которые позволяют генерировать карту сайта автоматически (WordPress, Joomla, MODx и др.). У наших клиентов, как правило, такого функционала не предусмотрено, поэтому можно воспользоваться либо он-лайн сервисами, либо XENU для создания такого файла.
robots.txt
robots.txt – файл рекомендаций для роботов поисковых систем. В нем указывают страницы, которые не следует индексировать.
Закрывать от индексации отдельные страницы можно и мета-тегом, но когда речь идет о целой группе страниц – правильнее делать это через robots.txt
Яндекс поддерживает ряд специфичных дирректив (Allow, Host), поэтому для бота Яндекса нужно выделять отдельную секцию в файле
Так же в robots.txt указывается расположение всех карт сайта (sitemap.xml) диррективой Sitemap.
301 редирект
301 код ответа сервера означает, что ресурс перемещен навсегда. Документ уже не используется сервером, а ссылка перенаправляет на другую страницу (получен код 301 Moved Permanently).
Так как пользователи не смогут увидеть подобные документы, показывать их в поиске не имеет смысла, и робот их не индексирует. Однако робот обязательно проиндексирует страницу, на которую установлено перенаправление. В частности, такой редирект используют для перенаправления с неосновного хоста на основной.
Перегружать сайт 301 редиректом не стоит. Это может повлиять отрицательно.
404 ошибка,
404 код ответа сервера означает, что ресурс не найден. Документ не существует (получен код 404 Not Found). Если вы удалили какой-то раздел сайта, можно с помощью robots.txt запретить роботу обращаться к нему. Если такой страницы на сайте никогда не существовало, игнорируйте эту ошибку, возможно, кто-то поставил некорректную ссылку на ваш сайт.
Одна из распространенных ошибок заключается в замене сообщения об ошибке 404 (страница не найдена) для несуществующих страниц на страницу-заглушку, которая возвращается с кодом ответа 200 (ОК). В этом случае поисковая система считает, что страница с некорректным адресом существует, и не удаляет ее из своей базы. Это приводит к проблемам с индексированием.
Вообще, сервер должен. 301 и 404 – это минимум, который нужно обязательно проверить.
Битые ссылки.
Битые ссылки в большом количестве – это ЗЛО!
Поисковикам не нужны некачественные сайты с неработающими ссылками. Поэтому от битых ссылок нужно избавляться как можно быстрее.
ЧеловекоПонятныеУрлы
Есть очень распространенный миф, что поисковики не любят динамические ссылки и индексируют только обычные статические и поэтому стоит использовать ЧПУ на динамических сайтах. На самом деле, поисковики давно хорошо индексируют и динамические ссылки.
ЧПУ всегда влияют положительно, т.к. лучше показывают структуру сайта. Но использовать их нужно с умом и в меру. Слишком длинный урл (>140 символов) или большая вложенность папок будет влиять отрицательно (желательно использовать не больше 2х уровней: /razdel/podrazdel/post.html). Так же желательно использовать ЧПУ с расширением, а не простые папки. Если на сайте есть иностранные бренды, следует включать их в урл страницы. Самая простая реализация таких урлов на сервере Apache через модуль mod_rewrite.
Теперь немного примеров.
site.ru/blog/pordvizheni-saita.html – хороший пример ЧПУ.
site.ru/index.php?category=1&post=45 – динамические ссылки.
http://site.ru/avtobusi-mezhgorod/raspisanie-avtobusov-mezhgorod.html хороший пример ЧПУ
http://www.site.ru/pages/view_category/4 не самый лучший пример ЧПУ.
Кодировка
Кодировки следует учитывать две.
- Отдаваемую сервером по умолчанию
- Указанную в документе
Какая кодировка не важно, главное, чтобы они обе совпадали и сайт отображался во всех браузерах нормально, а не «кракозябрами»
Сессии
У некоторых движков есть возможность указывать номер сессии в адресной строке.
От этого сайт нужно отучить. Ибо бот, каждый раз заходя на сайт, будет видеть по разным адресам одну и ту же страницу (адрес будет отличаться номером сессии)
Неиндексируемость части сайта (JavaScript, Flash и т.п.)
Поисковые роботы читают не всё содержимое страниц. Плохо, но все же читает флеш и контент из него Google. Совсем не читают java-скрипты. Не следует размещать в контент с помощью flash и javascript. Так же не нужно использовать их в качестве навигации – боты просто не увидят этих ссылок.
Так же необходимо использовать <noscript> для вставки альтернативного содержимого, естественно, повторяющего неиндексируемый контент.
Другие технические аспекты сайта.
При анализе сайта нужно особое внимание уделить дублям страниц и контента. Дубли страниц удобно выявлять с помощью XENU и Яндекс.Вебмастера (проиндексированные страницы). При обнаружение дублей нужно использовать 301 редирект на «оригиналы», а дубли закрыть в robots.txt. При обнаружении неполного дубля контента желательно его устранить или закрыть в noindex, если удалить его не разрешает клиент. При изучении проиндексированных страниц сайта следует обратить внимание не соответствие сохраненной копии и реальной страницы. Если сайт отдает роботу яндекса содержимое, отличное от того, что отдается обычному пользователю (это называется клоакинг), то скорее всего сайт попадет под санкции поисковика.
Быстрые ссылки
«Быстрые ссылки» — это короткий путь к важной информации на вашем сайте.
На ранжирование они не влияют напрямую, но на кликабельность в выдаче влияют, потому что связаны с отображением сайта в выдаче. Поэтому необходимо позаботиться о выгодном отображении быстрых ссылок. Быстрые ссылки Яндекс определяет автоматически, анализируя структуру сайта. Вручную можно только скрыть неугодные быстрые ссылки, поправить не получится.
Быстрые ссылки проще всего получить с помощью элемента «путь» (или хлебные крошки)
Быстроробот
У Яндекса есть несколько индексирующих роботов. Так называемый быстро робот (сейчас он называется orange crawler) индексирует интернет каждый день. Индексируются наиболее часто обновляемые ресурсы. Потом индекс, полученный быстро-роботом переиндексируется другими роботами.
Абсолютные и относительные пути
К абсолютным ссылкам поисковики более лояльны, но это не всегда удобно. Для большого удобства в разделе head прописывают параметром base основной хост системы, тогда все относительные ссылки должны начинаться со слеша (/)
Зеркала сайта, в т.ч. с www и без www
Зеркалирование (это когда один сайт доступен по разным доменам) сайта использовать крайне нежелательно, т.к. в результате Яндекс может определить основной домен неправильно или вообще посчитать домены аффилиатами.
К зеркалированию относится также доступность сайта по двум хостам: http://site.ru и http://www.site.ru. Сразу следует определиться тем, какой вариант сайта продвигаем, и следить за тем, чтобы все покупаемые ссылки были в одном формате. Помимо этого нужно сделать постраничный редирект по 301 коду с неосновного хоста на основной (хоршо реализуется через .htaccess)
Фавиконки
Наличие или отсутствие фавиконки никак не влияет на продвижение сайта. Зато Яндекс использует фавиконки в поисковой выдаче. И этот шанс выделиться нужно использовать.
Для этого нужно убедиться, что иконки есть у всех страниц сайта (некоторые движки имеют с этим проблемы).
Ошибки валидации, чистота кода
Код должен быть «валидным». К сайтам, соответствующим стандартам, поисковики относятся более лояльно. (это правда не мешает большим проектам типа mail.ru иметь кучу ошибок валидации). Проверять на валидацию можно по адресу: http://validator.w3.org/. Как минимум все теги должны быть закрытыми, у картинок прописаны alt’ы.
Чистота верстки тоже играет роль. Тут можно оценивать по соотношению общего размера кода страницы к объему полезного контента. Общий совет – кода должно быть как можно меньше.
CSS
CSS можно отнести к ошибкам валидации. По стандартам – CSS лучше выносить в отдельный файл. Прописывание стилей на странице недопустимо. Объясняется это просто – робот просто быстрее загрузит страницу.
Орфографические ошибки
Естественно, к тексту без ошибок поисковики относятся более лояльно. Опять же, важно количество ошибок.
Если уже говорить о пунктуации, то следует избегать очень длинных предложений, также следует использовать знаки препинания – они служат разделителями пассажей.