XML Sitemap: повне керівництво по використанню

  1. Технічна інформація
  2. XML карта для зображень
  3. XML карта для відео
  4. Файл Sitemap для новин
  5. Використання декількох карт
  6. Як створити sitemap.xml
  7. Популярні онлайн-генератори карти сайту
  8. XML Sitemap Generator
  9. My Sitemap Generator
  10. Check Domains
  11. Локальні програми для генерації XML Sitemap
  12. Screaming Frog SEO Spider
  13. Netpeak Spider
  14. Створення Sitemap XML на WordPress
  15. Кириличні адреси в sitemap
  16. Пошук помилок в карті сайту
  17. Sitemap.xml при переході сайту на HTTPS
  18. Різниця підтримки XML Sitemap в Google і Яндексі
  19. Корисні посилання:

Файл sitemap.xml - це інструмент, який дозволяє веб-майстрам інформувати пошукові системи про сторінках сайту, доступних до індексації. Також, в XML карті можна вказувати додаткові параметри сторінок: дата останнього оновлення, частота оновлень і пріоритет щодо інших сторінок. Інформація в sitemap.xml може впливати на поведінку пошукового краулер і, в цілому, на процес індексації нових документів. Sitemap містить в собі директиви включення сторінок в чергу на обхід і доповнює robots.txt, що містить директиви виключення сторінок.

У цьому керівництві ви знайдете відповіді на всі питання, що стосуються використання sitemap.xml.

Файл sitemap

Чи потрібен мені sitemap.xml

Пошукові системи використовують sitemap для пошуку нових документів на сайті (це можуть бути html-документи або медіа-контент), які недоступні через навігацію, але їх необхідно просканувати. Наявність посилання на документ в sitemap.xml не гарантує його сканування або індексацію, але частіше за все файл допомагає великим сайтам індексуватися краще. До того ж, дані з XML карти використовуються при визначенні канонічних сторінок, якщо це спеціально не вказано в тезі rel = canonical.

Sitemap.xml важливий для сайтів, де:

  • Деякі розділи недоступні через навігаційне меню.
  • Є безліч ізольованих сторінок або погано пов'язаних між собою.
  • Конструктор, слабо підтримувані пошуковими системами (наприклад, Ajax, Flash або Silverlight).
  • Присутній дуже багато сторінок і є ймовірність, що пошуковий краулер пропустить новий контент.

Якщо це не ваші випадки, то скоріше за все sitemap.xml вам не потрібен. Для сайтів, де кожна важлива для індексації сторінка доступна в межах 2х кліків, де для відображення контенту не використовуються технології JavaScript або Flash, де при необхідності використовуються канонічні і регіональні теги, і свіжий контент з'являється не частіше, ніж на сайт заходить робот, в файлі sitemap.xml немає необхідності.

Для невеликих проектів при наявності проблеми лише великого рівня вкладеності документів, її легко вирішити за допомогою HTML карти сайту, не вдаючись до використання XML карти. Але якщо ви вирішили, що sitemap.xml вам все-таки потрібен, то прочитайте це керівництво повністю.

Технічна інформація

  • Sitemap.xml є текстовим файлом формату XML . Однак, пошукові системи також підтримують текстовий формат (див. Наступний розділ).
  • Кожен сайтмап може містити максимум 50 000 адрес і важити не більше 50 Мб (10 Мб для Яндекса).
  • Можна використовувати gzip-стиснення для зменшення розміру файлу sitemap.xml і збільшення швидкості його передачі. В такому випадку використовуйте розширення gz (sitemap.xml.gz). При цьому, обмеження по вазі залишаються для незжатих сайтмапов.
  • Місцезнаходження файлу Sitemap визначає набір URL-адрес, які можна включити в цей Sitemap. Карта, яка містить адреси сторінок всього сайту, повинна розташовуватися в корені. Якщо сайтмап розташовується в папці, то і все URL в цьому сайтмапе повинні розташовуватися в цій папці або глибше ( см. детальніше ).
  • Адреси в sitemap.xml повинні бути абсолютними.
  • Максимальна довжина URL - 2048 символів (1024 символу для Яндекса).
  • Спецсимволи в URL (типу амперсанда "&" або лапок) повинні маскуватися в HTML-суті.
  • Зазначені в карті сторінки повинні віддавати 200 http-код статусу.
  • Перераховані в карті адреси не повинні бути закриті в файлі robots.txt або в meta-robots.
  • Sitemap не повинен бути закритий в robots.txt, інакше пошукова система його НЕ просканує. Сам файл може знаходитися в індексі, це нормально.

Пошукові системи підтримують простий текстовий формат карти сайту, де просто списком перераховані URL-адреси сторінок без додаткових параметрів. В такому випадку файл повинен мати кодування UTF-8 і мати розширення .txt.

Також пошуковими системами підтримується стандартний XML-протокол . Google додатково підтримує сайтмапи для зображень, відео та новин.

Приклад файлу Sitemap, який містить лише одну адресу.

&lt;? Xml version = "1.0" encoding = "UTF-8"?> <Urlset xmlns = "http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc> https: // devaka .ru / </ loc> <lastmod> 2018-06-14 </ lastmod> <changefreq> daily </ changefreq> <priority> 0.9 </ priority> </ url> </ urlset>

XML-теги
urlset (обов'язковий) - вказує стандарт поточного протоколу.
url (обов'язковий) - батьківський тег для кожного URL-адреси.
loc (обов'язковий) - URL-адресу документа, повинен бути абсолютним.
lastmod - дата останнього зміни документа в форматі Datetime .
changefreq - частота зміни сторінки (always, hourly, daily, weekly, monthly, yearly, never). Значення цього тега є рекомендацією пошуковим системам, а не командою.
priority - пріоритетність URL щодо інших адрес (від 0 до 1) для черговості сканування. Якщо не вказується, то за замовчуванням дорівнює 0.5.

XML карта для зображень

Деякі оптимізатори вставляють в sitemap.xml посилання на зображення аналогічно посиланнях на html-документи. Так можна робити, але краще для Google використовувати розширення стандартного протоколу і разом з урламі відправляти додаткову інформацію про зображення. Створювати XML карти зображень корисно, якщо картинки необхідно сканувати та індексувати, і при цьому, вони безпосередньо не доступні боту (наприклад, використовується JavaScript).

Приклад карти сайту, що містить одну сторінку і належать їй зображення

&lt;? Xml version = "1.0" encoding = "UTF-8"?> <Urlset xmlns = "http://www.sitemaps.org/schemas/sitemap/0.9" xmlns: image = "http://www.google .com / schemas / sitemap-image / 1.1 "> <url> <loc> http://example.com/primer.html </ loc> <image: image> <image: loc> http://example.com /kartinka.jpg </ image: loc> </ image: image> <image: image> <image: loc> http://example.com/photo.jpg </ image: loc> <image: title> Вид на Балаклаву </ image: title> <image: geo_location> Севастополь, Крим </ image: geo_location> <image: license> http://creativecommons.org/licenses/by-nd/3.0/legalcode </ image: license> < / image: image> </ url> </ urlset>

XML-теги
image: image (обов'язково) - інформація про одному зображенні. Максимум може використовуватися 1000 зображень.
image: loc (обов'язково) - шлях до файлу зображення. Якщо використовується CDN, то допустимо посилатися на інший домен, якщо він підтверджений в панелі для вебмайстрів.
image: caption - підпис до зображення (може міститися довгий текст).
image: title - назва зображення (зазвичай короткий текст).
image: geo_location - місце зйомки.
image: license - URL ліцензії зображення. Використовується при розширеному пошуку по картинках.

Використовується при розширеному пошуку по картинках

Детальніше про файлах Sitemap для зображень:
https://support.google.com/webmasters/answer/178636

XML карта для відео

Подібно карті для зображень, Google також має розширення sitemap протоколу для відео, де можна вказувати детальну інформацію про відео-контент, що впливає на відображення в пошуку по відео. Відео-сайтмап необхідний, коли на сайті використовуються відео, які хостятся локально, і коли індексація цих відео утруднена через використовуваних технологій. Якщо ви на сайті впроваджуєте відео з YouTube, то video-sitemap тут не потрібен.

Детальніше про файлах Sitemap для відео:
https://developers.google.com/webmasters/videosearch/sitemaps

Файл Sitemap для новин

При наявності на сайті новинного контенту та участі в Google Новинах корисно використовувати Sitemap для новин, так Google буде швидше знаходити ваші свіжі матеріали і індексувати всі новинні статті. В цьому випадку Sitemap повинен містити тільки адреси сторінок, опублікованих за останні 2 дні і містити не більше 1000 урлов.

Детальніше про файлах Sitemap для новин:
https://support.google.com/news/publisher-center/answer/74288

Використання декількох карт

При необхідності можна використовувати кілька карт сайтів, об'єднуючи їх в один індексний сайтмап. Кілька sitemap.xml використовуються у випадках, коли:

  • На сайті використовується кілька двигунів (CMS).
  • На сайті більше 50 000 сторінок.
  • Необхідно налаштувати зручне відстеження помилок в розділах.

В останньому випадку кожен великий розділ сайту має свій sitemap.xml і всі вони додаються в панель для вебмайстрів, де зручно спостерігати, в якому з розділів найбільше помилок (див. Розділ пошуку помилок в карті сайту).

Якщо у вас 2 і більше сайтмапа, їх необхідно об'єднати в індексний сайтмап, який виглядає так само як звичайний (за винятком наявності тегів sitemapindex і sitemap замість urlset і url), має аналогічні обмеження і може посилатися тільки на звичайні XML карти (нема на індексні) .

Приклад Sitemap Index:

&lt;? Xml version = "1.0" encoding = "UTF-8"?> <Sitemapindex xmlns = "http://www.sitemaps.org/schemas/sitemap/0.9"> <sitemap> <loc> http: // www .example.com / sitemap-blog.xml.gz </ loc> <lastmod> 2004-10-01T18: 23: 17 + 00: 00 </ lastmod> </ sitemap> <sitemap> <loc> http: // www.example.com/sitemap-webinars.xml.gz </ loc> <lastmod> 2005-01-01 </ lastmod> </ sitemap> </ sitemapindex>

sitemapindex (обов'язковий) - вказує стандарт поточного протоколу.
sitemap (обов'язковий) - містить інформацію про окремий sitemap.
loc (обов'язковий) - місце розташування sitemap (в форматі xml, txt або rss для Google).
lastmod - час зміни сайтмапа. Дозволяє пошукачам швидко виявляти нові URL на сайтах великих розмірів.

Як створити sitemap.xml

Методи створення XML Sitemap:

  • Внутрішні засоби CMS. Багато CMS вже підтримують створення карти сайту. Щоб це з'ясувати, почитайте документацію до вашої CMS, подивіться пункти меню в адміністративній панелі або зверніться в техпідтримку движка. Завантажте на вашому сайті файл https: //вашсайт.com/sitemap.xml , Можливо він вже існує і динамічно формується.
  • Зовнішні плагіни. Якщо в CMS немає функціоналу генерації карти сайту, і вона підтримує плагіни, погуглити, який з плагінів закриває питання sitemap.xml для вашого движка і встановіть його. У деяких випадках необхідно звернутися до програмістів, щоб вони написали вам подібний плагін.
  • Окремий скрипт на сайті. Знаючи протокол XML карти і технічні обмеження, можна створити sitemap.xml самостійно, додавши скрипт генерації в CRON. Якщо ви не програміст, використовуйте інші пункти цього списку.
  • Генератори Sitemap. Існує безліч генераторів sitemap.xml, які сканують ваш сайт і дають скачати готову карту. Недолік тут в тому, що при кожному оновленні сайту необхідно вручну генерувати сайтмап.
  • Парсери. Десктопні програми, призначені для технічного аналізу сайту, зазвичай надають можливість завантажити sitemap.xml, згенерований на основі просканованих сторінок. Працює аналогічно генераторам sitemap, тільки запускається локально на своїй машині.

Популярні онлайн-генератори карти сайту

XML-Sitemaps.com

com

Дозволяє отримати sitemap.xml в кілька кліків. Підтримує формати XML, HTML, TXT і GZ. Зручно використовувати для невеликих сайтів (до 500 сторінок).

XML Sitemap Generator

XML Sitemap Generator

Схожий генератор, але має трохи більше налаштувань і дозволяє створити карту до 2000 сторінок безкоштовно.

My Sitemap Generator

My Sitemap Generator

Має безліч налаштувань, дозволяє імпортувати URL-адреси з CSV-файлу. Безкоштовно сканує до 500 урлов.

Check Domains

Check Domains

Не має лімітів на кількість сторінок для сканування. Але для великих сайтів процес генерації може подвисать на кілька десятків хвилин.

Локальні програми для генерації XML Sitemap

G-Mapper Sitemap Generator

Безкоштовна десктопна версія генератора карти сайту під Windows.

Screaming Frog SEO Spider

Screaming Frog SEO Spider

Гнучкий інструмент генерації карти сайту з безліччю налаштувань. Зручно, якщо ви вже користуєтеся Скрімін фрог для інших SEO-завдань. Після сканування сайту використовуйте пункт меню Sitemaps -> Create XML Sitemap.

Netpeak Spider

Netpeak Spider

Менш гнучке, але теж зручне рішення для швидкої генерації sitemap.xml. Після сканування сайту необхідно використовувати пункт меню Інструменти -> Генерація Sitemap.

Створення Sitemap XML на WordPress

Yoast SEO
Крім інших функцій, корисних для SEO, дозволяє генерувати sitemap.xml.

Google XML Sitemaps
Простий плагін для генерації Sitemap на WordPress.

WP Sitemap Page
Ще один плагін для WordPress, якщо попередні не підійшли.

Sitemap.xml повинен оновлюватися відразу ж, як на сайті з'являються нові сторінки. Однак, в разі, якщо на сайті сторінки з'являються часто і пачками, то Sitemap доцільно генерувати приблизно раз на годину. Переконайтеся, що в карту сайту не потрапляють дублі, неіснуючі сторінки або містять редирект. Наприклад, сторінки пагінацію і сортування в sitemap.xml включати не потрібно. Ідеальний sitemap складається зі сторінок основних розділів і підрозділів сайту і кінцевих вузлів (статті, картки товару тощо).

Кириличні адреси в sitemap

Незважаючи на те, що sitemap протокол дозволяє використовувати тільки ASCII символи в URL, Google і Яндекс підтримують обидва формати для кириличних адрес, кодований і звичайний. Те ж саме з IDN-доменами, можна використовувати звичайний формат і Punycode . Однак, для сумісності вашого sitemap.xml з різними пошуковими системами і сервісами, рекомендується дотримуватися протоколу, кириличні домени кодувати в Punycode-формат ( використовуйте цей конвертер ), І використовувати маскування для кириличних адрес сторінок.

замість:
https: //мінобрнаукі.рф/фото

Необхідно використовувати:
https: //xn--80abucjiibhv9a.xn--p1ai/%D1%84%D0%BE%D1%82%D0%BE

Якщо ваш сайт є багатомовним або Мультирегіональні, то Google підтримує розмітку hreflang безпосередньо в sitemap.xml. Для цього в карті необхідно використовувати додаткові теги xhtml: link із зазначенням hreflang.

Приклад. Сайт використовує дві мови: російська та українська. В такому випадку sitemap.xml для однієї зі сторінок буде виглядати наступним чином.

&lt;? Xml version = "1.0" encoding = "UTF-8"?> <Urlset xmlns = "http://www.sitemaps.org/schemas/sitemap/0.9" xmlns: xhtml = "http: //www.w3 .org /: 1999 / xhtml "> <url> <loc> http://www.example.com/ru/ </ loc> <xhtml: link rel =" alternate "hreflang =" ru "href =" http: / /www.example.com/ru/ "/> <xhtml: link rel =" alternate "hreflang =" uk "href =" http://www.example.com/ua/ "/> </ url> <url > <loc> http://www.example.com/ua/ </ loc> <xhtml: link rel = "alternate" hreflang = "ru" href = "http://www.example.com/ru/" /> <xhtml: link rel = "alternate" hreflang = "uk" href = "http://www.example.com/ua/" /> </ url> </ urlset>

Як бачите, кожен мовний або регіональний URL повинен бути представлений в окремому тезі url. Чим більше мов на сайті, тим більше буде розростатися цей sitemap.

Якщо у сайту є безліч піддоменів, то кожен піддомен, як окремий сайт, повинен містити свій sitemap.xml. У цьому один з недоліків піддоменів структури сайту.

Пошук помилок в карті сайту

При створенні XML карти сайту веб-майстрами часто допускаються такі помилки:

  • URL веде на сторінку, http-код статусу якої відмінний від 200 (наприклад, сторінки не існує або вона редирект на іншу сторінку). Необхідно залишити в sitemap.xml тільки існуючі сторінки.
  • URL веде на сторінку, яка закрита від індексації у файлі robots.txt. Тут необхідно розібратися, помилка в robots.txt або в sitemap.xml.
  • URL веде на сторінку, яка закрита тегом meta-robots noindex. Посилання в карті сайту повинні вести тільки на сторінки, які доступні до індексації.
  • Помилки, що стосуються обмежень або невідповідності стандартного протоколу.

Найпростіший спосіб перевірки сайтмапа - використовувати Screaming Frog в режимі списку (меню "Mode" - "List"). Завантажуєте sitemap і програма сама перевірить всі урли, в звітах буде видно, які віддаються коди статусів і закриті адреси від індексації.

Також можна використовувати аналізатор файлів Sitemap від Яндекса. Тут корисно перевіряти свої карти перед тим, як додати їх в панель для вебмайстрів. А після додавання карти в панель пошукові системи будуть повідомляти про наявність додаткових помилок вже після того, як просканує урли.

Рекомендований алгоритм перевірки на помилки:

  • Просканувати XML Sitemap за допомогою Screaming Frog, позбутися від усіх помилок.
  • Протестувати карту сайту через інструмент Яндекса або в Google Search Console.
  • Додати посилання на карту в robots.txt і в панель для вебмайстрів Яндекса і Google Search Console.
  • Періодично моніторити розділ в панелі з XML картою.

Sitemap.xml при переході сайту на HTTPS

При переході сайту на HTTPS змінюється головне дзеркало і необхідно перевірити, що у вас дотримуються таких правил:

  • Новий sitemap.xml містить адреси з префіксом HTTPS.
  • Всі старі сайтмапи видалені з панелей для вебмайстрів та файлу robots.txt попередньої версії сайту.
  • Sitemap.xml на http-версії сайту редирект 301 кодом статусу на новий sitemap.xml на https-версії.
  • На сайті налаштований посторінковий 301 редирект на нову версію.

Різниця підтримки XML Sitemap в Google і Яндексі

МожливостіGoogleЯндекс

Максимальний розмір sitemap.xml 50 Мб 10 Мб Максимальна довжина URL 2048 симв. 1024 симв. Підтримка Sitemap для зображень і відео є немає Новинний Sitemap є немає Використання кириличних урлов можна можна Розмітка мовних версій сторінок є немає Підтримка RSS / Atom фідів є немає

Якщо це керівництво не дало відповідь на ваше запитання, задайте його в коментарях.

Корисні посилання:

- Довідка Google щодо використання sitemap.xml
https://support.google.com/webmasters/answer/183668

- Аналогічна довідка Яндекса
https://yandex.ru/support/webmaster/controlling-robot/sitemap.html

- Опис протоколу
https://www.sitemaps.org/ru/protocol.html

Lt;?
Encoding = "UTF-8"?
Encoding = "UTF-8"?
Encoding = "UTF-8"?
Lt;?
Encoding = "UTF-8"?