Разница sitemap.xml и robots.txt

robot.txt sitemap.xmlЗачем вообще мне нужны эти файлики? В чем разница между robot.txt и sitemap.xml? А кто главнее?

Развивая собственный сайт в сети Интернет, я то создаю, редактирую, то удаляю страницы по рекомендациям хорошего друга google.com/webmasters/tools (правда он не сразу стал мне другом, некоторое время я гордо сам кидал в интернет веб-страницы, за что, честно стыдно и до сих пор прибираюсь). Учитывая, что оптимизацией (SЕО) собственного сайта я сначала не занимался, так как я о ней не знал, а если знал, то не предоставил достаточно внимания, считая, что не стоит тратить время на что-то непонятное: раскрутка сайта, поисковые системы, зачем? Считая, нужно будет — найдут.

Что же нашли, кто нашел, что-то нашло, оно меня нашло, теперь вопрос:

Может все же лучше поисковые системы будут индексировать и выдавать и в Интернет мои хорошие веб-страницы? А 404, или те, что мне самому уже не нужны, и которую я собственно сам удалил, то заявить господинe Круелсe (Crawlers, англ. Crawl- ползти) пожалуйста не принимайте …

Давайте попробуем разобраться, что мы можем узнать из той же сети Интернет по robot.txt и sitemap.xml?

Что такое robots.txt?

Коротко о назначении: robots.txt — это файл ограничения доступа роботов к содержанию на http-сервере. Иначе говоря, этот файл указывает, какие файлы индексировать, какие — нет. Файлы Robots.txt служат лишь для одного — «рассказать» спайдерам ПМ какие страницы не нужно индексировать. Спайдеры ПМ достаточно охотно индексируют все, что они могут найти в сети, включая файлы, где хранятся пароли.

Что мы могли узнать о файле Sitemap.xml из Сети?

Файл Sitemap это список ссылок на страницы вашей web-площадки. Через этот файл поисковой системе проще изучить сайт и пройти по ссылкам для просмотра.

Преимущества применения Sitemap:

  • — Увеличение вероятности, что поисковой системой проиндексированы будут все страницы сайта;
  • — Самостоятельное регулирование приоритета индексации каждой страницы.
  • — После использования sitemap.xml на сайте скорость индексации увеличивается.

Интересное о поисковых пауках

Частота индексирования сайтов и логика поисковых систем по индексации документов (страниц):

  • После нахождения и индексации новой страницы, робот посещает ее на следующий день.
  • После сравнения содержимого страницы с тем, что было и не найдя различий робот поисковой системы зайдет на нее за три дня.
  • Если и на этот раз на этой странице ничего не изменится, то робот наведывается через неделю.

Со временем, частота посещения поискового робота к странице приблизится к частоте ее обновления. Время повторного захода работа поисковых систем может измеряться для разных сайтов в минутах или в годах. Умные поисковые системы устанавливают индивидуальный график посещения для разных страниц различных сайтов.

Просматривая материал о поисковых системах, можно утверждать, так или иначе материал Вашего сайта будет проиндексирован поисковыми системами, однако для правильной и более быстрой индексации Вашего материала следует использовать указания (Robots.txt и Sitemap.xml) для поисковых роботов, помним что :

Robots.txt — файл создан для разрешения или запрета индексации страниц поисковыми роботами.

Sitemap.xml — страница используемая поисковыми работами для индексации страниц.

На этом лишь желаю удачной оптимизации Вашего сайта!



Запись опубликована в рубрике Создание сайтов. Добавьте в закладки постоянную ссылку.

3 комментария: Разница sitemap.xml и robots.txt

  1. Вася говорит:

    Я в последнее время убирался на собственном сайте действительно удалил десяток веб-страниц, а теперь мне GoogleFriend (google.com/webmasters/tools/) заявляет 404 Page Not Found, и я знаю что их нет, я так понимаю у меня есть какие же целых два решения по данному вопросу:
    1. Почистить все другие веб-страницы ссылающиеся на удаленную веб-страницу.
    2. Запретить Работу ее индексировать, хотя что здесь индексировать если ее нет, значит что выполняем п.1.

  2. Сеошник говорит:

    Конечно круто, но наверное лучше бы если бы отдельно было о robots.txt и sitemap.xml.
    О поисковых системах — тоже видимо отдельно лучше.
    При рассмотрении robots.txt можно еще добавить немного про meta-тег robots ()

    — Самостоятельное регулирование приоритета индексации каждой страницы.

    Вот эта штука для Google и Яндекс особо не действует. Для них все-таки более важно внутренняя перелинковка и внешние ссылки на отдельные страницы, так и выставляется приоритет. А также важно качество страницы.

    Sitemap.xml — страница используемая поисковыми работами для индексации страниц сайта.

    Вообще sitemap.xml не обязательно должен иметь название именно «sitemap.xml». Можно использовать любое название, но обязательно необходимо указать это в robots.txt или отправить в инструментах Google / Яндекс.

    Можно еще добавить о том, что sitemap может содержать ссылки на другие файлы. То есть для интернет-магазина это может быть: sitemap / products.xml, sitemap / categories.xml, sitemap / news.xml, sitemap / articles.xml, sitemap / other.xml.

    Еще добавлю, что так или иначе нужно зацикливаться на sitemap. Часто чтобы его сгенерировать нужно потратить немного времени, а не такая уж и важная вещь, особенно сейчас.

    ПМ — поисковые машины? правильно все-таки поисковые системы (ПС).
    P.S. все-таки рекомендую разбить статью на отдельные, так будет легче восприниматься и это будет лучше для поисковых систем. 🙂
    А в robots.txt добавить больше примеров.

  3. admin говорит:

    Вообще то, я сначала хотел лишь с robots.txt разобраться, так сказать собрать информацию вообще, что это такое.
    Но если просто разобраться в общем, что такое robots.txt — то стоит сказать, что он относится к элементам Поисковых Систем, соответственно стоит ознакомиться, что такое Поисковая Система.
    А у них уже и крутится sitemap.
    Поэтому я и собрал по своему усмотрению из интернета именно общую информацию о них. Если глубже копать какие директивы Robots имеет, даже при Поисковые системы, и о sitemap, то оно действительно лучше разбить на отдельные темы, но это уже не было моей целью.
    Мне необходимо было лишь ознакомить так сказать с основами, такой вот личный компромисс.
    Теперь при случае сяду посмотрю в каких из папок сайта мне следует применять Robots, хотя и так не все собственные веб-страницы переделал под удобство просмотра мобильными гаджетами, еще есть немного ссылок битых, — ну в общем есть с чем играть.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *