Создать и оптимизировать robots.txt

  1. Является ли robots.txt обязательным для поисковых роботов?
  2. Для чего нужен файл robots.txt?
  3. VBulletin Solutions?
  4. Где находится файл robots.txt?
  5. Нужно ли создавать robots.txt для поисковых систем?
  6. Как редактируется robots.txt?
  7. Как часто следует редактировать файл robots.txt?
  8. Как структурирован файл robots.txt?
  9. Основная поисковая система сканеров
  10. Общие инструкции
  11. Исключение всех сканеров (полное запрещение)
  12. Блокировка выбранного каталога и его содержимого
  13. Блокировать только выбранный каталог
  14. Общий каталог и его содержимое в заблокированном каталоге
  15. Блокировка файла в каталоге
  16. Выпустить файл в заблокированном каталоге
  17. Исключение типов файлов
  18. Расширенные инструкции
  19. Исключить параметры получения
  20. Блокировка каталогов, которые содержат определенную строку
  21. Задержка сканирования для бреда и бингбота
  22. robots.txt Карта сайта
  23. генератор robots.txt
  24. Тест robots.txt

18 апреля 2019 г.

Топ 10 рейтинга в Поиске Google жизненно важны, потому что поисковые системы являются сильными поставщиками трафика. Часто становится технический SEO забытый или только элементарно наблюдаемый - и, таким образом, излишне теряющий потенциал ранжирования. Мощной технической мерой SEO является оптимизация сканирования с использованием файла robots.txt. Узнайте, как улучшить бюджет сканирования своего сайта с помощью robots.txt, не требуя навыков программирования.

Robots.txt - это текстовый документ, который определяет инструкции для сканеров (ботов, пауков, роботов) по ограничению глобального доступа или к частям веб-сайта. Файл находится в корне веб-сайта, который является верхним каталогом хоста.

Является ли robots.txt обязательным для поисковых роботов?

Стандартный протокол исключения роботов Заставляет все сканеры вызывать файл robots.txt перед обработкой первого ресурса на веб-сайте. Большинство сканеров следуют стандартному протоколу исключения роботов и следуют (большинству) инструкциям.

Файл robots.txt не должен существовать, но он предназначен для Поисковая оптимизация веб-сайт рекомендуется. Если robots.txt не развернут, все ресурсы могут обрабатываться всеми сканерами.

Для чего нужен файл robots.txt?

Файл robots.txt определяет, какие ресурсы не следует сканировать. С одной стороны, чтобы защитить личные данные, с другой стороны, чтобы оптимизировать возможности сканирования.

VBulletin Solutions?

Поисковые системы оценивают сайты по их релевантности. Все домены, которые уже пользуются высокой степенью надежности, регулярно посещаются поисковыми системами для сбора нового контента и интенсивно сканируются - иногда несколько раз в день. Внутренние дубликаты должны быть исключены из обработки - например, результаты гранулярного фильтра, отсортированный контент («от А до Я» и «возрастание цены»), результаты внутреннего поиска и т. Д.

Где находится файл robots.txt?

Файл robots.txt всегда хранится в корневом каталоге домена. Он должен быть написан в точности как: «robots.txt» - строчными буквами. С FTP-клиентом ( пример ) файл может быть создан или обновлен на веб-сервере. Все инструкции предназначены только для хоста.

Нужно ли создавать robots.txt для поисковых систем?

Определенно: да. Google прокомментировал это в видео для веб-мастеров. Мэтт Каттс рекомендует развернуть файл robots.txt:

Если мне не нужны сканеры блоков, должен ли я создать файл robots.txt?

Как редактируется robots.txt?

Robots.txt представляет собой текстовый файл и может быть отредактирован любым обычным текстовым редактором. Ожидаемый формат файла - кодированный текстовый формат UTF-8.

Как часто следует редактировать файл robots.txt?

Robots.txt замечен многими сканерами. Следовательно, файл не должен быть предназначен для временного сканирования, например, для временного придания выбранным документам более высокого веса ранжирования. Лучше обновлять robots.txt, когда возникает необходимость, например, при создании каталогов, содержимое которых не должно обрабатываться сканерами.

Могу ли я использовать robots.txt для оптимизации сканирования Googlebot?

Как структурирован файл robots.txt?

Файл robots.txt содержит записи (выписки) и комментарии. Это строго с учетом регистра. Комментарии инициируются знаком #.

Записи содержат обязательные заявления (исключения или разрешения). Различают три кода результата:

  • полное разрешение : весь контент можно сканировать
  • полное запрещение : контент нельзя сканировать
  • условное разрешение : инструкции определяют индивидуальный обход

Операторы robots.txt начинаются со строки:

«Пользователь-агент» определяет, какому сканеру адресованы инструкции. Первая буква «U» должна быть заглавной.

В верхней строке указано, что за исключениями и выпусками инструкции должны следовать все боты. Звезда - это подстановочный знак - подстановочный знак, который в этом случае обращается ко всем ботам.

Инструкции также могут быть адресованы выбранным сканерам. Например, чтобы применить оператор только к роботу Google, оператор:

На веб-сайте представлен полный список популярных сканеров поисковых систем. robotstxt.org ,

Основная поисковая система сканеров

Пользователь-агентпоисковой системы

Googlebot Google Search + Google Mobile ( смотрите здесь ) Googlebot для мобильных устройств Google для мобильных телефонов ( смотрите здесь ) Изображение Googlebot Поиск Google Image Поиск видео Googlebot Поиск видео Google Mediapartners-Google Google (для мобильных устройств) AdSense Adsbot-Google Google AdsBot Slurp Yahoo! bingbot MSNBot / bing MSNBOT Mobile MSN mobile

Срок действия оператора может быть определен для нескольких сканеров, например:

Пользователь - агент: Googlebot

Пользователь - агент: Googlebot - Изображение

Пользователь - агент: Slurp

Инструкция распространяется на «Googlebot», «Googlebot-Image» и «Slurp».

Как только станет ясно, какому сканеру адресована инструкция, следующим шагом будет перечисление исключений и общих ресурсов. Инструкция может содержать несколько исключений и выпусков.

Запрещенное утверждение вводит критерий исключения. Первая буква "D" должна быть заглавной:

Оператор Allow освобождает пути URL-адресов в заблокированном каталоге для обработки - подкаталогах, файлах и т. Д. Первая буква «A» должна быть заглавной. Внимание: не все сканеры интерпретируют оператор Allow:

Критерий утверждения всегда отмечается после двоеточия, разделенного пробелом. В каждой строке может быть указан только один критерий.

Общие инструкции

Нет исключения для сканеров (полное разрешение)

Если сайт может обрабатывать все сканеры без ограничений, оператор будет следующим:

Исключение всех сканеров (полное запрещение)

Если веб-сайт не может быть обработан каким-либо сканером, требуется следующее заявление:

Косая черта за «Disallow:» исключает весь контент из обработки. Эта запись обычно известна как «robots.txt Disallow all».

Блокировка выбранного каталога и его содержимого

Чтобы исключить выбранный каталог и его содержимое из обработки сканерами, оператор:

Пользователь - агент: *

Disallow: * / каталог - 1 /

В этом случае «каталог-1», включая все содержимое (подкаталоги, файлы), заблокирован для всех искателей. «*» Перед каталогом означает, что оператор также применяется, если каталог существует до «/ directory-1 /», например: «/ directory-0 / directory-1 /»

Несколько каталогов могут быть заблокированы по следующей схеме:

Пользователь - агент: *

Disallow: * / каталог - 1 /

Disallow: * / каталог - 2 /

Disallow: * / каталог - 3 /

Каталоги "directory-1", "directory-2" и "directory-3", а также его содержимое заблокированы для всех искателей.

Блокировать только выбранный каталог

Если вы хотите заблокировать только каталог и его содержимое, но не иерархически более низкие каталоги и файлы, эта команда полезна:

Пользователь - агент: *

Disallow: * / directory / $

Символ «$» обозначает конец URL.

Общий каталог и его содержимое в заблокированном каталоге

Если каталог и его содержимое должны быть освобождены в заблокированном каталоге для обработки, это возможно с помощью следующего синтаксиса:

Пользователь - агент: *

Disallow: * / каталог - 1 /

Разрешить: * / каталог - 1 / каталог - 2 /

Оператор disallow отключает обработку «directory-1». Оператор Allow выпускает каталог-2 и его содержимое в каталог-1. Все остальные каталоги и содержимое в «directory-1» остаются заблокированными.

Блокировка файла в каталоге

Пользователь - агент: *

Disallow: * / каталог - 1 / файл - 1.jpg

Файл "file-1.jpg" в "directory-1" будет заблокирован для всех сканеров.

Выпустить файл в заблокированном каталоге

Если файл должен быть освобожден в заблокированном каталоге, возможен следующий синтаксис:

Пользователь - агент: *

Disallow: * / каталог - 1 /

Разрешить: * / каталог - 1 / файл - 1.jpg

Файл "file-1.jpg" в заблокированном каталоге "directory-1" передается для обработки всем сканерам.

Исключение типов файлов

Если определенные типы файлов должны быть исключены, следующий синтаксис полезен:

Пользователь - агент: *

Disallow: / *. JPG $

Звездочка определяет любую строку. С помощью «.jpg» определяется тип файла - в этом случае все файлы типа JPG. Знак доллара говорит, что никакой другой символ не может следовать за типом файла.

Это утверждение означает: никакой сканер не может обрабатывать файлы JPG. Это влияет на все файлы JPG веб-сайта.

Расширенные инструкции

Следующие утверждения не интерпретируются всеми сканерами. Я определяю следующие примеры для Googlebot. Важно, чтобы расширенные инструкции не мешали другим правилам веб-сайта - например, Канонические метки ,

Исключить параметры получения

Часто URL-адреса параметров и идентификаторы сеансов генерируют внутренние Дублированный контент , Сканирование дубликатов излишне ухудшило бы возможность сканирования. Поэтому имеет смысл исключить их из обработки:

Пользователь - агент: Googlebot

Disallow: / *?

Роботу Google не разрешается обрабатывать URL с вопросительным знаком.

Блокировка каталогов, которые содержат определенную строку

Может потребоваться заблокировать каталоги, содержащие определенную строку. Это возможно с помощью следующего синтаксиса:

Пользователь - агент: Googlebot

Disallow: * / личное * /

Робот Google не должен обрабатывать каталог, начинающийся со строки «private». Звезда является wildchar и может использоваться индивидуально.

Задержка сканирования для бреда и бингбота

Для двух пользовательских агентов Slurp и bingbot задержка сканирования может быть установлена ​​в секундах. Это полезно для уменьшения нагрузки на сервер искателей:

Пользователь - агент: Slurp

Сканирование - задержка: 60

Разбойному роботу разрешается читать документ каждые 60 секунд.

Параметр должен быть хорошо рассчитан, потому что количество документов, которые могут быть обработаны, может быть значительно сокращено и отрицательно оптимизировано. Задержка сканирования 60 секунд позволила бы максимум 1440 страниц в день (60 секунд = 1 минута, 24 часа x 60 минут = 1440). Веб-сайты с несколькими тысячами документов будут слишком ограничены.

robots.txt Карта сайта

Google рекомендует: веб-сайты с более чем 10000 страниц должны иметь один XML Sitemap развернуть, чтобы обеспечить высокую скорость сканирования. Следующая запись сообщает всем сканерам адрес XML-файла Sitemap:

Карта сайта: https: //www.example-website.com/sitemap.xml

Если веб-сайт предоставляет несколько файлов Sitemap, рекомендуется записывать все файлы Sitemap построчно. URL-пути всегда указываются абсолютно. Утверждение Sitemap интерпретируется и обрабатывается Google, Ask, Bing, Yahoo.

генератор robots.txt

В интернете есть множество поставщиков генераторов robots.txt. Для создания простого robots.txt эти генераторы определенно рекомендуются. Однако, если требуются расширенные инструкции, генератор robots.txt быстро достигнет своего предела по моему опыту.

Тест robots.txt

Чтобы протестировать и проверить robots.txt, я рекомендую тестер robots.txt из Google Search Console. Это можно найти в главном меню в разделе «Сканирование». Это позволяет вам индивидуально проверять пути URL. Синтаксис файла robots.txt может с этим инструментом быть подтвержденным.

Некоторые сканеры не следуют стандартному протоколу исключения роботов и не следуют инструкциям файла robots.txt. Если вы храните конфиденциальные данные в домене, я рекомендую защиту на стороне сервера от нежелательного доступа.

Простой и эффективный метод для веб-сервера Apache - использовать защиту паролем .htaccess с файлом .htpasswd. Такую защиту можно быстро и удобно настроить с помощью бесплатных генераторов ( здесь или здесь ). Обязательным условием является FTP-доступ к веб-серверу.

Создать и оптимизировать robots.txt