Джон Мюллер советует не генерировать robots.txt динамически

Джон Мюллер сказал в обмен   форум вебмастеров   что было отрицать создание динамических файлов robots

Джон Мюллер сказал в обмен форум вебмастеров что было отрицать создание динамических файлов robots.txt, поскольку это могло нарушить работу роботов индексации, а также отрицательно повлиять на учет информации, вписанной в нее.

Его обмен также дал некоторую интересную информацию о сканировании файлов robots.txt . Вот полный перевод его поста:

Динамическая генерация карты сайта - это хорошо. Это хороший способ автоматически обновлять планы вашего сайта.

Динамическое создание файла robots.txt (для одного и того же хоста! Выполнение этого для отдельных хостов по существу соответствует нормальному robots.txt для каждого из них), вероятно, вызовет проблемы: его не посещают каждый раз, когда URL сайта сканируется, поэтому может случиться, что «плохая» версия будет кэширована. Например, если вы генерируете свой robots.txt, блокирующий сканирование в рабочее время, возможно, он кэшируется, и это означает, что в течение одного дня ничего не сканируется (или, наоборот, кэшируется, пока сканирование разрешено). Например, Google сканирует файл robots.txt примерно один раз в день для большинства сайтов.

Я не скрываю тот факт, что пример, приведенный Джоном Мюллером, немного карикатурен, поскольку он вызывает случай robots.txt, который динамически генерирует правило «disallow: /», которое блокирует роботов для сканирования . В этом случае, действительно, для этого правила потребуется дополнительный день, который был кэширован в предыдущий день, отменен и разрешено снова сканировать роботов.

На самом деле, я не совсем понимаю, в чем проблема с динамическим управлением файлом robots.txt, зная, что его использование все еще весьма ограничено для большинства веб-сайтов. За исключением случаев, когда генератор создает правила блокировки или важные правила деиндексации для сайта, время от времени соответствующие сканированию (зная, что он часто меняется, трудно целиться просто ...), я не вижу слишком большого вреда для него можно сделать

Я передал информацию, чтобы она была полностью прозрачной для вас, но если у меня есть только один совет, который нужно дать вам, особенно следует соблюдать осторожность, чтобы не применять правила блокировки в файле robots.txt, чтобы это либо вручную, либо динамически . Риск заключается только в том, чтобы заблокировать сканирование (примерно на 24 часа, если правило блокировки отменено на следующий день), это «все».

В конце концов, единственная информация, которая мне кажется интересной, это то, что файл robots.txt не читается для каждого URL, а только один раз в день для всех сайтов . Таким образом, Googlebot не тратит время на повторное чтение файла robots.txt, чтобы сэкономить деньги.