Файл Robots.txt на WordPress: руководство, чтобы понять все

  1. Я - Что такое файл robots.txt?
  2. 2 - Вам действительно нужен файл robots.txt?
  3. II - Как создать файл robots.txt на WordPress?
  4. 1 - метод создания файла robots.txt в WordPress с помощью Yoast SEO
  5. 2 - Ручной метод
  6. Некоторые дополнительные правила
  7. Как заблокировать доступ к каталогу
  8. Как заблокировать доступ к странице или файлу
  9. Как создать разные правила для разных роботов
  10. Как разрешить доступ к файлу в заблокированном каталоге
  11. III - Как проверить, работает ли ваш файл robots.txt?
  12. IV - Как оптимизировать файл robots.txt на WordPress?
  13. заключение
  14. Тибо (команда WPMarmite)

Если я попрошу вас определить, что такое файл robots.txt в WordPress, можете ли вы дать мне ответ сразу?

Не легко, правда? Кроме того, не зная об этом, у вас уже есть один на вашем сайте.

Дело в том, что мы не всегда понимаем многое из этого известного файла. Для чего это? Что мы вкладываем? Почему его код выглядит как китайский?

Если вы уже читали об этом, держу пари, что вы задали себе эти вопросы.

Немного похоже на динамит, этот файл должен обрабатываться с большой осторожностью .

Если вы настроите его плохо, вы рискуете наткнуться на ссылку на ваш сайт. Так что остерегайтесь взрыва!

В этой статье я покажу вам, как избежать катастрофы и как оптимизировать файл robots.txt. Вы узнаете, для чего он используется, как он работает, два способа его создания и что положить внутрь.

Я - Что такое файл robots.txt?

1 - Презентация

Файл robots.txt - это текстовый файл, «расположенный в корне вашего сайта, который указывает сканерам поисковых систем не сканировать определенные части вашего сайта» , как определено Google на своем справочном сайте для веб-мастеров ,

Также известный как протокол исключения роботов, он не позволяет поисковым системам индексировать определенный бесполезный и / или личный контент (например, страницу входа, конфиденциальные файлы и файлы).

Таким образом, этот протокол сообщает роботам поисковых систем, что они могут и не могут делать на вашем сайте.

Вот как это работает. Когда робот собирается сканировать URL-адрес вашего сайта (то есть он будет сканировать и извлекать информацию, чтобы ее можно было проиндексировать), он сначала будет искать ваш файл роботов. .txt.

Если он найдет его, он прочтет его и затем последует инструкциям, которые вы дали (он не сможет исследовать тот или иной файл, если вы его запретили).

Если он не найдет его, он будет исследовать ваш сайт в обычном режиме, без исключения какого-либо контента.

Я схватил зверя в его простейшем устройстве. Посмотрите на этот пример файла robots.txt на WordPress, чтобы увидеть, как он выглядит:

Не останавливайтесь на его содержании. Как вы увидите позже, на любом сайте нет адаптируемого стандартного файла. В любом случае это не рекомендуется.

Если вам нужно было вспомнить еще 4 вещи о нашей теме дня, поместите это в череп:

  • Как объясняет Google, в вашем файле robots.txt указываются «инструкции, а не правила». Если «серьезные» сканеры (Google, Bing, Yahoo, Yandex, Baidu и т. Д.) Будут их уважать, это не относится к злонамеренным роботам, которые пытаются подорвать безопасность вашего сайта.
  • Файл robots.txt является открытым . Любой может получить к нему доступ, набрав следующий шаблон: yoursite.com/robots.txt. Поэтому не используйте его для скрытия контента, мы быстро найдем, где он скрыт ... Если вы хотите, чтобы контент оставался закрытым, не вставляйте его в этот файл.
  • Если вы не хотите, чтобы некоторые страницы отображались в результатах поиска, «не используйте файл robots.txt, чтобы скрыть свою веб-страницу», - сообщает Google. Действительно, если несколько ссылок указывают на эту страницу, вполне возможно, что Google индексирует ее и отображает в результатах поиска, не зная, что она содержит, даже если вы заблокировали ее в своем файле. robots.txt. Чтобы предотвратить появление страницы в результатах поиска, Google рекомендует использовать то, что называется тег noindex (Это можно легко включить в Yoast SEO, сняв флажок «Разрешить поисковым системам отображать XXX контент в результатах поиска?» Под каждой статьей / страницей на вкладке настроек).
  • В файле robots.txt есть двоюродный брат по имени humans.txt .

    Как история сайт, посвященный ему это «TXT-файл, содержащий информацию о разных людях, которые внесли свой вклад в создание сайта» . Например, разработчики, веб-дизайнеры, писатели и т. Д. Это не обязательно, но если вы сочтете полезным интегрировать его в свой WordPress, он добавится в корень вашего сайта, рядом с файлом robots.txt (см. что у мармита например )

2 - Вам действительно нужен файл robots.txt?

По умолчанию веб-сайт будет искать и индексироваться обычным образом поисковой системой, даже без наличия файла robots.txt.

Последнее поэтому не является обязательным. Как объясняет Даниэль Рох, SEO специалист WordPress «Если вы собираетесь ссылаться на все свои страницы, контент и мультимедиа, не используйте файл robots.txt - он вам не поможет».

Но тогда какая польза от этого файла в остальное время?

Основным преимуществом является поиск вашего SEO (SEO) . На самом деле, файл robots.txt сохраняет то, что называется бюджетом сканирования, говорит эта статья из блога Yoast SEO ,

Это довольно технически, но для простоты: чем больше у вас бюджета на сканирование (количество страниц, которые Google будет сканировать на вашем сайте в точке T), тем больше вероятность того, что ваш сайт будет проиндексирован в Google.

Если вы хотите разобраться в теме, об этом говорит Оливье Даффес, WebRank Info. поблизости ,

Теперь пришло время перейти к настройке вашего файла. И это важно, поверь мне. Если он не оптимизирован должным образом, вы рискуете серьезно оштрафовать свое присутствие в поисковых системах.

II - Как создать файл robots.txt на WordPress?

По умолчанию WordPress создает виртуальный файл robots.txt . Он недоступен на вашем сервере, но вы можете обратиться к нему онлайн.

Возьмите сайт Усэйна Болта, бывшей звезды ямайского спринта.

Да, даже сайт Усэйна Болта разработан под WordPress

Чтобы увидеть это, просто введите в браузере: http://usainbolt.com/robots.txt

Вот что вы получите:

Этот виртуальный файл работает. Но как отредактировать этот robots.txt на вашем сайте WordPress?

Ну, вам придется создать свой собственный файл, чтобы заменить его.

Есть два способа сделать это:

  • использовать плагин
  • создать его вручную

Я предлагаю вам узнать это в деталях.

1 - метод создания файла robots.txt в WordPress с помощью Yoast SEO

Я готов поспорить, что Вы знаете, SEO Yoast нет? Вы знаете, это плагин SEO, один из самых скачиваемых за все время.

Marmite использует его, и я также буду использовать его, чтобы показать вам, как он может позволить вам создать файл robots.txt.

Очевидно, что обязательным условием является то, что вы установили и активировали это расширение.

Начните с перехода на панель управления WordPress и выберите Yoast SEO> Инструменты .

Начните с перехода на панель управления WordPress и выберите Yoast SEO> Инструменты

Продолжите, нажав на Редактор файлов .

Продолжите, нажав на Редактор файлов

Если у вас еще нет выделенного файла, нажмите кнопку, чтобы создать его. Со своей стороны, у меня уже был один на моем сайте, поэтому я мог только изменить его. И не забудьте сохранить, как только вы закончите.

И не забудьте сохранить, как только вы закончите

И все, готово.

Не волнуйтесь, я объясню вам в конце этой части, какую информацию заполнять в этом файле.

А пока я предлагаю вам перейти ко второму способу: вы будете работать своими маленькими руками.

2 - Ручной метод

Независимо от того, используете ли вы выделенный плагин или нет, вы также можете добавить robots.txt в ваш WordPress вручную . Это очень просто, вы увидите.

Сначала вам понадобится текстовый редактор. Среди них я могу порекомендовать вам:

В противном случае ваш старый добрый блокнот также будет работать очень хорошо.

Создайте новый документ и сохраните его на своем компьютере, назвав его robots.txt

Его имя всегда должно быть в нижнем регистре, и не забывайте ставить «с» на слово «роботы» (не пишите Robot.txt).

Затем подключитесь к вашему FTP-клиенту. Это программное обеспечение, которое позволяет вам общаться с вашим сервером.

Лично я пользуюсь FileZilla , Но вы также можете обратиться к Cyberduck или передавать , Для получения дополнительной информации о том, как использовать FTP, я перенаправлю вас к статье Как установить WordPress: пошаговое руководство ,

Третий и последний шаг: добавьте свой файл в корень вашего сайта . Повторяю, в корне вашего сайта, а не в подкаталоге. В противном случае поисковые системы не примут это во внимание.

Например, если ваш сайт доступен через https://www.yoursite.com/, файл robots.txt должен находиться по адресу https://www.yoursite.com/robots.txt.

Это местоположение (корень) может отличаться от одного веб-хостинга к другому. На o2switch это называется public_html. В OVH вы найдете его под названием www.

Его окончательная имплантация должна выглядеть так: дома:

Поздравляем, ваш файл robots.txt теперь на вашем сервере. На данный момент он пуст, но вы можете редактировать его, когда захотите.

По логике вещей, вы должны спросить, какие инструкции положить внутрь.

Прежде чем смотреть на этот момент, необходимо понять конкретный синтаксис этого файла.

Он состоит из одного или нескольких наборов правил, которые «блокируют (или разрешают) доступ данного сканера к определенному пути к файлу на веб-сайте» , как Google объясняет в своей справке на консоли поиска ,

Два главных правила названы:

  • User-agent: имя робота поисковой системы, к которому применяется правило.
  • Disallow: каталог или страница, относящиеся к корневому домену, которые не должны просматриваться пользовательским агентом. Помните, что по умолчанию робот может сканировать страницу или каталог, который не заблокирован правилом Disallow.

Предлагаю разобрать простой пример, чтобы вы хорошо поняли.

Пользователь-агент: * Disallow: /

В первой строке звездочка * - это то, что называется символом подстановки. Он сообщает всем поисковым роботам (пользовательским агентам) сканировать ваш сайт.

Во второй строке запретить доступ поисковикам ко всем каталогам и страницам его сайта через косую черту /.

Вам не нужно вводить доменное имя (например, mysite.fr/) перед косой чертой, потому что файл robots.txt использует относительные URL-адреса. Проще говоря, он знает, что косая черта относится к корню вашего доменного имени.

Очевидно, что приведенный выше фрагмент кода не представляет большого интереса, если вы хотите, чтобы ваш сайт сканировался и индексировался. Но это может быть полезно, когда вы находитесь в процессе создания вашего сайта.

Если вы не хотите, чтобы робот определенного типа сканировал ваш сайт, например Yahoo (Slurp - это имя, связанное с роботом Yahoo), вам необходимо сделать следующее:

Пользователь-агент: Slurp Disallow: /

Для получения дополнительной информации об именах роботов, я отсылаю вас к этой записи с сайта Yoast SEO ,

Некоторые дополнительные правила

Я рассказал вам о User-Agent и Disallow, которые наиболее часто используются. Знайте, что существуют другие синтаксические правила, но они не учитываются всеми роботами (да, Google). Среди них мы находим:

  • Разрешить: позволяет просматривать подкаталог или страницу в неавторизованном каталоге (Запретить).
  • Карта сайта: сообщает роботам, где находится ваша карта сайта. Эта строка необязательна. Я рекомендую отправлять карту сайта в поисковые системы с помощью специального инструмента, такого как Google Search Console. Я объясняю вам, как это сделать эта статья ,

Чтобы убедиться, что вы хорошо понимаете, я предлагаю пойти немного дальше, предложив 3 новых примера.

Как заблокировать доступ к каталогу

Пользовательский агент: * Disallow: / wp-admin /

Я прошу всех роботов не сканировать все содержимое каталога wp-admin.

Как заблокировать доступ к странице или файлу

Пользователь-агент: * # Нет индексации на странице Запретить вход в систему: /wp-login.php # Нет индексации фотографии Запретить: /maphoto.jpg

В этом примере я прошу всех роботов не индексировать страницу входа в WordPress, а также фотографию.

Вы также можете увидеть появление символа #. Он вводит комментарий. Текст за ним не будет принят во внимание.

Также имейте в виду, что правила чувствительны к регистру.

Например, Disallow: /maphoto.jpg - это http://www.mysite.com/maphoto.jpg, но не http://www.mysite.com/Maphoto.jpg.

Как создать разные правила для разных роботов

Пользовательский агент: * Disallow: /wp-login.php Пользовательский агент: Googlebot Disallow: /

Правила всегда рассматриваются сверху вниз. Помните, они всегда начинаются с оператора User-agent .

Во-первых, я прошу всех роботов не индексировать страницу входа (wp-login.php).

Во втором я специально прошу сканера Google (Googlebot) не исследовать весь мой сайт.

Как разрешить доступ к файлу в заблокированном каталоге

User-agent: * Disallow: / wp-admin Разрешить: wp-admin / widgets.php

Мы используем утверждение Allow. В этом примере блокируется весь каталог wp-admin, кроме файла widgets.php

III - Как проверить, работает ли ваш файл robots.txt?

Чтобы убедиться, что ваш файл правильно настроен, вы можете проверить его и проверить на Google Search Console , бесплатный и необходимый инструмент для управления SEO вашего сайта (среди прочих).

Войдите в свою панель инструментов и на вкладке « Сканирование » выберите Robots.tx Test Tool t (вы должны были предварительно добавить свой веб-сайт).

tx Test Tool t (вы должны были предварительно добавить свой веб-сайт)

После ввода инструкций по вашему выбору в редакторе, предусмотренном для этой цели, вы можете проверить свой файл.

Если все хорошо, у вас должно появиться следующее сообщение внизу редактора.

Если все хорошо, у вас должно появиться следующее сообщение внизу редактора

Наконец, рассмотрите возможность отправки файла.

IV - Как оптимизировать файл robots.txt на WordPress?

Что ставить или не ставить в своем файле robots.txt?

Существует ли предопределенный шаблон, который можно адаптировать для каждого сайта?

Ответ: и да, и нет.

Действительно, каждый сайт отличается, и было бы трудно скопировать и вставить то, что предлагают Пьер, Пол или Жак на своих сайтах. Их проблемы, скорее всего, будут отличаться от тех, которые у вас есть.

Тем не менее, мы можем предоставить вам базовый файл robots.txt, который будет работать для большинства сайтов:

User-agent: * # Запретить конфиденциальные папки не индексируются: / wp-admin Disallow: / wp-includes Disallow: / wp-content / запретить плагины: / wp-content / disallow кеш: / trackback Disallow: / * .php $ Disallow: /*.inc$ Disallow: /*.gz$ # Мы деиндексируем страницу входа (бесполезный контент) Disallow: /wp-login.php

Если честно, даже в сообществе WordPress, вы думаете, невозможно заставить всех согласиться? Мнения расходятся.

Некоторые, такие как Йост де Валк, генеральный директор Yoast, выступают за минимализм. Это на самом деле текущая тенденция .

По сути, они полагают, что, поскольку Google способен полностью интерпретировать ваш сайт (включая CSS и Javascript, а не только HTML), вам не следует блокировать доступ к файлам CSS и Javascript. он может видеть ваши страницы в полном объеме. В противном случае это может повлиять на ваш SEO.

Чтобы быть уверенным, вы можете использовать ссылку Исследовать как Google на консоли поиска. Это позволяет вам увидеть, как робот Google (робот Google) видит вашу страницу.

На моем сайте, похоже, работает

Если ваш сайт не имеет своего обычного внешнего вида (например, некоторые стили не применяются), вероятно, необходимо пересмотреть некоторые правила вашего файла robots.txt.

Но вернемся к Йоасту. Посмотрите на их файл robots.txt:

Как видите, практически ничего не заблокировано! Единственное запрещенное исследование для роботов - это один из их самодельных инструментов под названием Yoast Suggest.

Другие выступают за более широкий и «безопасный» подход для вашего сайта. Они советуют, среди прочего:

  • чтобы запретить доступ к двум ключевым каталогам WordPress , таким как папка wp-admin (где расположены административные элементы вашего сайта) и папка wp-includes (в которой находятся все файлы WordPress).
  • деиндексировать страницу входа (wp-login.php).
  • или деиндексируйте файл readme.html, поскольку он содержит версию WordPress, которую вы используете.

Короче говоря, не легко ориентироваться, в середине все его рекомендации!

В заключение я советую вам:

  • сведите его к минимуму, если вы не уверены, что делаете . В противном случае последствия для вашего SEO могут оказаться неудачными.
  • Перед отправкой убедитесь, что в вашем файле нет ошибок в консоли поиска .

заключение

Как видите, файл robots.txt является интересным инструментом для вашего SEO. Это позволяет указать роботам поисковых систем, что исследовать, а не исследовать.

Но с этим нужно обращаться осторожно. Плохая конфигурация может привести к полной деиндексации вашего сайта (например, если вы используете Disallow: /). Так что будь осторожен!

Так что будь осторожен

Чтобы закончить эту статью, предлагаю сделать резюме. В этих строчках я подробно изложил:

  • что такое файл robots.txt
  • как установить его на WordPress
  • как оптимизировать файл robots.txt в WordPress для SEO

Теперь это зависит от вас. Подскажите, если вы используете этот тип файла и как вы его настраиваете.

Поделитесь со мной своими комментариями и отзывами в комментариях.

И если вы считаете, что эта статья может быть полезна другим людям, поделитесь ею в социальных сетях.

И если вы считаете, что эта статья может быть полезна другим людям, поделитесь ею в социальных сетях

Получите бесплатные будущие статьи и получите доступ к эксклюзивным ресурсам. Более 23000 человек сделали это, почему не вы?

Об авторе

Тибо (команда WPMarmite)

Внештатный веб-редактор. Я запустил keymistry.com, чтобы помочь своим клиентам повысить узнаваемость и бизнес, создав мощный маркетинговый контент. Кроме того, я увлечен SEO, веб-маркетингом и WordPress. Я тоже привыкаю к ​​футболу.

Txt?
Txt?
Txt на WordPress?
Txt?
Txt на WordPress?
Txt в WordPress, можете ли вы дать мне ответ сразу?
Не легко, правда?
Для чего это?
Что мы вкладываем?
Почему его код выглядит как китайский?