XML Sitemap: самий нерозуміючими інструмент в арсеналі SEO

Індексація
послідовність
Якість сайту в цілому
Приховуємо непотрібні сторінки
Noindex проти robots.txt
Управління бюджетом сканування
Усунення проблем індексації
Динамічна XML-карта сайту
Файл Sitemap для відео
висновки

Автор: Майкл Котто (Michael Cottam) - SEO-консультант, OzTech (США). Експерт Moz.

Працюючи SEO-консультантом, я бачив безліч клієнтів з самими безглуздими помилками щодо XML Sitemap. Карта сайту - це потужний інструмент, але щоб вміло ним користуватися, потрібна невелика підготовка і досвід.

Індексація

Напевно, найчастішим помилкою є те, що XML-карта сайту допомагає індексації сторінок. Перше, що потрібно чітко зрозуміти: Google не індексує сторінки тільки тому, що ви люб'язно про це попросили. Google індексує їх тому, що: а) він їх знаходить і сканує; б) він вважає їх досить якісними, щоб індексувати. Якщо ви вказуєте Google на сторінку і просите проіндексувати її, зовсім не обов'язково, що так і буде.

Важливо відзначити, що відправляючи файл sitemap.xml, ви даєте Google підказку. В результаті пошуковик розуміє, що ви вважаєте ці URL досить якісними цільовими сторінками, що стоять індексації. Але це лише підказка, що вони важливі. Така ж, як посилання на сторінку з головного меню.

послідовність

Однією з найбільш частих помилок, які я спостерігав у клієнтів - відсутність послідовності в передачі Google інформації про конкретній сторінці. Якщо ви блокуєте сторінку у файлі robots.txt, а потім включаєте її в файл XML Sitemap, ви заплутується Google. Ваша карта сайту говорить: «Google, ось гарна, якісна сторінка, яку тобі точно потрібно проіндексувати». При цьому файл robots.txt забороняє її індексувати.

Те ж саме стосується і метатега robots: не вмикайте сторінку в файл Sitemap, якщо ви плануєте додати на неї метатег robots зі значенням «noindex, follow». Використовуйте цей метатег тільки в тому випадку, якщо ви не хочете, щоб Google індексував сторінку.

В цілому, ми хочемо, щоб кожна сторінка нашого сайту потрапила в одну з двох категорій:

Службові сторінки (корисні для користувачів, але не цільові сторінки для пошукових запитів);
«Смачні», високоякісні посадочні сторінки для пошукових запитів.

Все, що потрапляє в категорію №1, має блокуватися в файлі robots.txt або через метатег robots зі значенням «noindex, follow» і не повинно вказуватися в файлі Sitemap.

Все, що потрапляє в категорію №2, не повинно блокуватися в файлі robots.txt або за допомогою метатега robots зі значенням «noindex» і повинне бути присутнім у файлі XML Sitemap.

Якість сайту в цілому

Судячи з усього, Google оцінює якість сайту в цілому і використовує цей показник в ранжируванні. І тут мається на увазі не контрольний вагу.

Подумайте про це з точки зору Google. Припустимо, у вас є відмінна сторінка з прекрасним контентом, який охоплює всі сигнали, починаючи від релевантності та «Панди» і закінчуючи залученістю в соціальних мережах.

Якщо Google бачить ваш сайт як 1000 сторінок контенту, з яких лише 5-6 сторінок є такими, як ця чудова сторінка, то він направляє користувачів на один з цих URL. Але що буде, якщо користувач натисне на посилання на цій сторінці? Він може потрапити на неякісну сторінку сайту. В даному випадку мова йде про погане UX. Навіщо направляти користувачів на такий сайт?

Інженери Google явно розуміють, що у кожного сайту є певна кількість «службових» сторінок, які корисні для користувачів, але не обов'язково повинні бути цільовими сторінками для пошукових запитів. Це сторінки авторизації, відповіді на коментар та інші.

Якщо файл Sitemap містить всі ці сторінки, то що ви повідомляєте Google? Що у вас немає підказок, що вважати хорошим контентом на вашому сайті, а що до нього не відноситься.

Тепер давайте розглянемо картину, які ви можете намалювати Google замість цієї: «Так, у нас є сайт з 1000 сторінок. 475 з них - сторінки з відмінним контентом. Решта ви можете ігнорувати. Це спеціальні сторінки ».

Припустимо, Google сканує ці 475 сторінок, і за допомогою своїх метрик визначає, що 175 з них - це сторінки класу «А»; 200 - класу «В +»; а 100 - «В» або «В-». В цілому це досить непоганий результат, і він може говорити про те, що сайт досить хороший для того, щоб направляти до нього користувачів.

Для порівняння, уявіть ситуацію, коли всі 1000 сторінок сайту внесені в файл XML Sitemap. Google дивиться на всі сторінки, які ви вказали як хороший контент і бачить, що більше 50% з них - це сторінки класу «D» або «F». В середньому, сайт виглядає як неякісний, і Google, можливо, не захоче направляти до нього користувачів.

Приховуємо непотрібні сторінки

Пам'ятайте, що Google збирається використовувати те, що ви подаєте через файл Sitemap, як підказку, що вважати важливим на сайті. Але якщо якісь URL відсутні у файлі Sitemap, зовсім необов'язково, що Google їх проігнорує. У вас як і раніше можуть бути тисячі сторінок з достатньою кількість контенту і довідкових сигналів для індексації, хоча насправді вони не повинні індексуватися.

Використовуйте команду «site:", щоб побачити всі сторінки, які Google індексує на сайті. Так ви зможете знайти сторінки, про які ви забули, і виключити їх з «середньої оцінки», яку Google присвоює сайту, за допомогою метатега robots «noindex, follow» або блокування в robots.txt. Як правило, найслабші сторінки в індексі будуть перераховані останніми в результатах пошуку, виконаного за допомогою оператора «site:".

Noindex проти robots.txt

Існує важливе, але тонка різниця між застосуванням метатега robots і файлу robots.txt для запобігання індексації сторінки. Використання метатега robots зі значенням «noindex, follow» дозволяє передавати контрольний вагу від цієї сторінки до тих URL, на які вона посилається. Якщо ви блокуєте сторінку в robots.txt, то він просто йде в нікуди.

На прикладі вище ми блокуємо сторінки, які насправді не є сторінками. Це відстежують скрипти. Тому ми не втрачаємо контрольний вагу, оскільки у цих сторінок немає хедера з головним меню і т.п.

Візьмемо для прикладу сторінку «Контакти» або «Політика конфіденційності». Посилання на них можуть міститися на кожній сторінці сайту - через головне меню або меню в футере. Відповідно, на ці сторінки надходить велика кількість посилального ваги. Навіщо від нього відмовлятися? Чи не краще було б дозволити йому чинити до всіх посилань в головному меню? Відповідь очевидна, чи не так?

Управління бюджетом сканування

В яких випадках замість метатега robots потрібно використовувати robots.txt? Можливо тоді, коли у вас є проблеми з краулінговим бюджетом, і Googlebot витрачає багато часу на сканування службових сторінок тільки для того, щоб виявити метатег robots «noindex, follow» і покинути їх. Якщо у вас так багато службових URL, що Googlebot не добирає до важливих сторінок, тоді їх потрібно заблокувати в robots.txt.

У деяких наших клієнтів після очищення файлу Sitemap і блокування індексації службових сторінок поліпшувалося ранжування:

Ви дійсно вважаєте, що 6-20 тисяч сторінок вашого сайту повинні скануватися щодня? Або ж краулінговий бюджет витрачається на службові сторінки?

Якщо у вас є основний набір сторінок, контент яких регулярно змінюється (блог, нові продукти або сторінки категорій товару) і є безліч сторінок (таких, як сторінки окремих товарів), які потрібно б індексувати, але не за рахунок повторного сканування та індексування основних сторінок , то ви можете внести основні сторінки в файл XML Sitemap. Таким чином, ви дасте Google підказку, які сторінки ви вважаєте більш важливими, ніж ті, що не заблоковані, але і не внесені в XML-карту сайту.

Усунення проблем індексації

Інструмент XML Sitemap реально корисний для SEO в тому випадку, якщо ви відправляєте в Google вибірку сторінок для індексації, але тільки деякі з них індексуються. Google Search Console не надає інформацію про те, які саме сторінки індексуються. У сервісі можна дізнатися лише загальна кількість проіндексованих URL в кожному файлі Sitemap.

Припустимо, ви є власником e-commerce сайту, у якого 100 тис. Сторінок товару, 5 тис. Сторінок категорій і 20 тис. Сторінок підкатегорій. Ви відправляєте в Google файл XML Sitemap, який містить 125 тис. URL, і з'ясовуєте, що він індексує тільки 87 тис. З них. Але які саме?

По-перше, можливо, ВСЕ сторінки категорій і підкатегорій є для вас важливими пошуковими цілями. В такому випадку можна створити файли category-sitemap.xml і subcategory-sitemap.xml і відправити їх в Google окремо. Надавши пошуковику ці файли, ви очікуєте, що індексація буде на рівні 100%. Якщо ж показник нижчий, тоді ви розумієте, що потрібно додати більше контенту на ці сторінки, збільшити контрольний вагу або ж працювати над обома аспектами. Ви можете виявити, що сторінки категорій і підкатегорій не індексуються, тому що на них вказано тільки 1 товар (або жодного). В такому випадку на цих сторінках можна налаштувати метатег robots «noindex, follow» і прибрати їх з XML-карти.

Є ймовірність, що проблема криється в деяких з 100 тисяч сторінок товарів. Але в яких саме?

Почніть з гіпотез і розбийте сторінки товарів за окремими XML-файлів, щоб перевірити ці гіпотези. Ви можете тестувати кілька гіпотез одночасно. Додавати один і той же URL в кілька файлів Sitemap допустимо.

Ви можете почати з наступних трьох теорій - не індексуються ті сторінки товару, на яких:

Немає зображення товару;
Унікальне опис включає менше 200 слів;
Немає коментарів або відгуків.

Створіть файл XML Sitemap для кожної з цих категорій. Не обов'язково, щоб він включав всі сторінки в категорії. Досить того кількості, на підставі якого можна буде робити обґрунтовані висновки про індексацію. Наприклад, в кожному файлі може бути 100 сторінок.

Ваша мета - використовувати загальний відсоток індексації в кожному з цих файлів Sitemap для визначення властивостей сторінок, які призводять до того, що вони індексуються або не індексуються.

Як тільки ви з'ясуєте, в чому полягає проблема, ви можете змінити вміст сторінок (або посилання на них) або закрити їх від індексації. Наприклад, у 20 тис. З 100 тис. Сторінок товару на сайті опису включали менше 50 слів. Якщо це не трафіковий ключові слова, і ви отримуєте опису від виробників, можливо, не варто вручну додавати ще 200 слів на кожну з цих 20 тис. Сторінок. Можна додати метатег robots «noindex, follow» на всі сторінки з описом з менш ніж 50 слів, оскільки Google все одно не збирається їх індексувати, і вони знижують загальну оцінку якості сайту. Також не забувайте видаляти такі сторінки з файлу Sitemap.

Динамічна XML-карта сайту

Ви, можливо, думаєте: «Дуже добре, Майкл. Але тепер мені потрібно вручну підтримувати синхронізацію XML-файла з метатегах robots на всіх 100 тис. Сторінок ».

Але немає ніякої необхідності робити це вручну. XML-карта сайту не повинна бути статичним файлом. Насправді, у файлу навіть не обов'язкова наявність розширення .XML для відправки його в Google Search Console.

Замість цього налаштуйте правила, що вказують, чи повинна сторінка додаватися в файл Sitemap чи ні, і використовуйте ту ж логіку на самій сторінці, щоб налаштувати метатег robots index або noindex. Якщо опис товару з фида виробника оновиться і збільшиться з 42 слів до 215, сторінка буде автоматично додана в файл Sitemap і отримає метатег robots зі значенням «index, follow».

На своєму туристичному сайті я застосовую цю тактику для різних типів сторінок. Я використовую класичний ASP для цих сторінок, тому файли Sitemap виглядають приблизно так:

https://www.visualitineraries.com/ItinSiteMap.asp

Коли ці файли обробляються, замість рендеринга HTML-сторінки, код з боку сервера просто повертає XML. Цей цикл повторюється для набору записів з однієї з моїх таблиць бази даних і видає запис для кожної, яка відповідає певному критерію.

Файл Sitemap для відео

Замість створення файлу Sitemap для відео, використовуйте JSON-LD і розмітку schema.org/VideoObject на самій сторінці.

висновки

Будьте послідовними: якщо ви блокуєте сторінку від індексації в robots.txt або за допомогою метатега robots «noindex», вона не повинна бути присутнім у файлі Sitemap.
Використовуйте XML-карту сайту як інструмент для виявлення і усунення проблем індексації. Дозволяйте / просите Google індексувати тільки ті сторінки, які він захоче індексувати.
При наявності великого сайту використовуйте динамічні файли sitemap.xml. Не намагайтеся вручну підтримувати синхронізацію між robots.txt, метатегами robots і файлами Sitemap.

Але що буде, якщо користувач натисне на посилання на цій сторінці?
Навіщо направляти користувачів на такий сайт?
Якщо файл Sitemap містить всі ці сторінки, то що ви повідомляєте Google?
Навіщо від нього відмовлятися?
Чи не краще було б дозволити йому чинити до всіх посилань в головному меню?
Відповідь очевидна, чи не так?
Txt?
Або ж краулінговий бюджет витрачається на службові сторінки?
Але які саме?
Але в яких саме?