Розділ 6. Як влаштовані пошукові системи - IT1306: Оптимізація і просування сайтів в Інтернет - Бізнес-інформатика

  1. Домени Дуже важливо розуміти, де знаходяться межі зони індексування пошукача, які сайти можна в ньому...
  2. Глибина і об'єм індексації

Домени

Дуже важливо розуміти, де знаходяться межі зони індексування пошукача, які сайти можна в ньому знайти, а які ні, які сайти можна додати в пошуковик, а які ні. Хоча «Яндекс» і «Рамблер» - пошукові машини по російськомовних сайтів, тобто по Рунету, це не означає, що вони індексують тільки сайти з іменами в зоні .ru. В обидва пошукача можна додати сайт з розширенням .com, .info і іншими, але при цьому він повинен бути російською мовою. До сайтів з цих та інших доменних зон «Яндекс» і «Рамблер» добираються і самі, якщо на них ведуть посилання з ресурсів, вже відомих даними пошуковикам. З 2007 року «Яндекс» «перейшов межу» і почав самостійно індексувати світової Інтернет, в даний час він «знає» вже мільярди англомовних сторінок.

Google, який позиціонує себе як світову пошукову машину, природно, індексує взагалі будь-які сайти в усіх доменних зонах.

Які документи індексують пошукові системи?

Протокол HTTP (англ. HyperText Transfer Protocol) - методика передачі веб-сторінок по мережі Інтернет.

Спочатку метою пошукових систем було проіндексувати веб-сторінки, тобто тексти в форматі HTML, викладені на сайт і відображаються веб-сервером по протоколу НТТР. Пізніше виявилося, що багато корисної інформації викладено в Інтернеті у вигляді статей, прейскурантів, документації, керівництв і т. П. В різних «офісних» форматах. Тому більшість пошукових систем кілька років тому почали індексувати викладені на сайтах документи в форматах MS Word, PDF, MS Excel. Широке поширення динамічних сторінок в форматі Flash змусило пошукових систем індексувати і тексти, приховані всередині цього формату файлів.

Широке поширення динамічних сторінок в форматі Flash змусило пошукових систем індексувати і тексти, приховані всередині цього формату файлів

Сторінка розширеного пошуку "Яндекса"

Однак не варто розраховувати на індексацію вашої інформації в цих екзотичних для Інтернету форматах, оскільки немає гарантії, що пошуковик проиндексирует їх добре. Якщо є можливість, будь-які важливі тексти завжди слід дублювати на сайті в форматі HTML.

Наприклад, потрібно завжди мати прейскуранти у вигляді звичайної веб-сторінки, тому що до прейскуранта в форматі Excel пошуковик може не дістатися, а якщо і добереться, то індексація, пошук і показ його в результатах пошуку будуть обов'язково кульгати, оскільки пошукові системи не вміють розбирати структуру Excel-файлів настільки ж добре, як HTML-сторінки.

Постійно з'являються новини і чутки про те, що Google або «Яндекс» почали нарешті в якійсь мірі «розуміти» JavaScript. Поки, проте, покладатися на це не варто.

Зауважимо, що пошукачі не індексують тексти, які виводяться на екран користувача динамічно різними програмними засобами на зразок JavaScript . Вони так само невидимі для пошукача, як і тексти в графічному вигляді, про які говорилося вище.

Глибина і об'єм індексації

Наскільки глибоко пошуковик «заривається» в сайт і чи є які-небудь обмеження?

Теоретично таких обмежень немає, проте на практиці пошуковик не стане викачувати з вашого сайту мільйони сторінок (якщо вони там є). Адже крім вашого сайту у пошукача в черзі на індексацію стоять мільйони інших сайтів, тому він намагається за один раз, за ​​один прохід взяти з кожного сайту деякий розумне кількість сторінок. У наступному циклі індексації пошукова система може взяти ще якусь кількість ваших сторінок і т. Д. Щоб не брати кожен раз занадто багато, пошуковик намагається не занурюватися по посиланнях всередину вашого сайту занадто глибоко.

Це означає, що навіть при великій кількості сторінок сайт повинен бути розумно організований - скажімо, не повинно бути сторінок, до яких можна дістатися тільки по ланцюжку з десяти посилань. У розділах « Як зробити сайт доступним для пошукових систем »І« Корекція сайту для просування в пошукових системах »Ми розповімо про це докладніше.

Які документи індексують пошукові системи?