Зачем вообще мне нужны эти файлики? В чем разница между robot.txt и sitemap.xml? А кто главнее?
Развивая собственный сайт в сети Интернет, я то создаю, редактирую, то удаляю страницы по рекомендациям хорошего друга google.com/webmasters/tools (правда он не сразу стал мне другом, некоторое время я гордо сам кидал в интернет веб-страницы, за что, честно стыдно и до сих пор прибираюсь). Учитывая, что оптимизацией (SЕО) собственного сайта я сначала не занимался, так как я о ней не знал, а если знал, то не предоставил достаточно внимания, считая, что не стоит тратить время на что-то непонятное: раскрутка сайта, поисковые системы, зачем? Считая, нужно будет — найдут.
Что же нашли, кто нашел, что-то нашло, оно меня нашло, теперь вопрос:
Может все же лучше поисковые системы будут индексировать и выдавать и в Интернет мои хорошие веб-страницы? А 404, или те, что мне самому уже не нужны, и которую я собственно сам удалил, то заявить господинe Круелсe (Crawlers, англ. Crawl- ползти) пожалуйста не принимайте …
Давайте попробуем разобраться, что мы можем узнать из той же сети Интернет по robot.txt и sitemap.xml?
Что такое robots.txt?
Коротко о назначении: robots.txt — это файл ограничения доступа роботов к содержанию на http-сервере. Иначе говоря, этот файл указывает, какие файлы индексировать, какие — нет. Файлы Robots.txt служат лишь для одного — «рассказать» спайдерам ПМ какие страницы не нужно индексировать. Спайдеры ПМ достаточно охотно индексируют все, что они могут найти в сети, включая файлы, где хранятся пароли.
Что мы могли узнать о файле Sitemap.xml из Сети?
Файл Sitemap это список ссылок на страницы вашей web-площадки. Через этот файл поисковой системе проще изучить сайт и пройти по ссылкам для просмотра.
Преимущества применения Sitemap:
- — Увеличение вероятности, что поисковой системой проиндексированы будут все страницы сайта;
- — Самостоятельное регулирование приоритета индексации каждой страницы.
- — После использования sitemap.xml на сайте скорость индексации увеличивается.
Интересное о поисковых пауках
Частота индексирования сайтов и логика поисковых систем по индексации документов (страниц):
- После нахождения и индексации новой страницы, робот посещает ее на следующий день.
- После сравнения содержимого страницы с тем, что было и не найдя различий робот поисковой системы зайдет на нее за три дня.
- Если и на этот раз на этой странице ничего не изменится, то робот наведывается через неделю.
Со временем, частота посещения поискового робота к странице приблизится к частоте ее обновления. Время повторного захода работа поисковых систем может измеряться для разных сайтов в минутах или в годах. Умные поисковые системы устанавливают индивидуальный график посещения для разных страниц различных сайтов.
Просматривая материал о поисковых системах, можно утверждать, так или иначе материал Вашего сайта будет проиндексирован поисковыми системами, однако для правильной и более быстрой индексации Вашего материала следует использовать указания (Robots.txt и Sitemap.xml) для поисковых роботов, помним что :
Robots.txt — файл создан для разрешения или запрета индексации страниц поисковыми роботами.
Sitemap.xml — страница используемая поисковыми работами для индексации страниц.
На этом лишь желаю удачной оптимизации Вашего сайта!
Я в последнее время убирался на собственном сайте действительно удалил десяток веб-страниц, а теперь мне GoogleFriend (google.com/webmasters/tools/) заявляет 404 Page Not Found, и я знаю что их нет, я так понимаю у меня есть какие же целых два решения по данному вопросу:
1. Почистить все другие веб-страницы ссылающиеся на удаленную веб-страницу.
2. Запретить Работу ее индексировать, хотя что здесь индексировать если ее нет, значит что выполняем п.1.
Конечно круто, но наверное лучше бы если бы отдельно было о robots.txt и sitemap.xml.
О поисковых системах — тоже видимо отдельно лучше.
При рассмотрении robots.txt можно еще добавить немного про meta-тег robots ()
— Самостоятельное регулирование приоритета индексации каждой страницы.
Вот эта штука для Google и Яндекс особо не действует. Для них все-таки более важно внутренняя перелинковка и внешние ссылки на отдельные страницы, так и выставляется приоритет. А также важно качество страницы.
Sitemap.xml — страница используемая поисковыми работами для индексации страниц сайта.
Вообще sitemap.xml не обязательно должен иметь название именно «sitemap.xml». Можно использовать любое название, но обязательно необходимо указать это в robots.txt или отправить в инструментах Google / Яндекс.
Можно еще добавить о том, что sitemap может содержать ссылки на другие файлы. То есть для интернет-магазина это может быть: sitemap / products.xml, sitemap / categories.xml, sitemap / news.xml, sitemap / articles.xml, sitemap / other.xml.
Еще добавлю, что так или иначе нужно зацикливаться на sitemap. Часто чтобы его сгенерировать нужно потратить немного времени, а не такая уж и важная вещь, особенно сейчас.
ПМ — поисковые машины? правильно все-таки поисковые системы (ПС).
P.S. все-таки рекомендую разбить статью на отдельные, так будет легче восприниматься и это будет лучше для поисковых систем. 🙂
А в robots.txt добавить больше примеров.
Вообще то, я сначала хотел лишь с robots.txt разобраться, так сказать собрать информацию вообще, что это такое.
Но если просто разобраться в общем, что такое robots.txt — то стоит сказать, что он относится к элементам Поисковых Систем, соответственно стоит ознакомиться, что такое Поисковая Система.
А у них уже и крутится sitemap.
Поэтому я и собрал по своему усмотрению из интернета именно общую информацию о них. Если глубже копать какие директивы Robots имеет, даже при Поисковые системы, и о sitemap, то оно действительно лучше разбить на отдельные темы, но это уже не было моей целью.
Мне необходимо было лишь ознакомить так сказать с основами, такой вот личный компромисс.
Теперь при случае сяду посмотрю в каких из папок сайта мне следует применять Robots, хотя и так не все собственные веб-страницы переделал под удобство просмотра мобильными гаджетами, еще есть немного ссылок битых, — ну в общем есть с чем играть.