Як пошукові системи індексують сайти у 2023? Як змінюються підходи до оптимізації індексу сайту? Розберемо важливі нюанси щодо індексації сайтів пошуковою системою, про які мало хто знає.
Вплив індексації сайту на позиції у пошуковій видачі
Оптимізація індексу є відправною точкою на початку робіт з просування будь-якого сайту. Велика кількість сміття — проблема, оскільки видалити велику кількість сторінок із індексу вкрай складно. Заборона у файлі robots.txt вирішить проблему лише для Яндекс. Для Google буде потрібний додатковий перехід сторінок, які слід виключити з пошукової системи.
Немає інструментів масового видалення сторінок з індексу Google. Офіційний інструмент лише приховують сторінки пошукової видачі.
Як індекс впливає ранжування?
Вплив відбувається так:
- Наявність великої кількості сторінок з цим вмістом або марним контентом сприймається як спроба маніпуляції;
- Через хостові фактори сайту.
Практика показує, що видалення з індексу сторінок із марним контентом позитивно впливає на позиції сайту в пошуковій видачі.
Як відбувається індексація сайтів?
Спочатку розберемося з терміном. Що таке індексація сайту? Індексація сайту – сканування, збереження сторінок у базу пошукової системи та подальша обробка алгоритмами.
Процес індексації сайту у спрощеному вигляді:
- Краулер пошукової системи сканує веб-сайт;
- Система індексації обробляє контент.
На практиці схема індексації набагато складніша. Розберемо як відбувається процес індексації на прикладі Google. У процесі індексації бере участь три окремі системи: планувальник, робот для сканування сайтів та система обробки. Google Scheduler створює план індексації з урахуванням краулінгового бюджету на сайт. Googlebot сканує сайти та зберігає дані у бінарному вигляді. Google Caffeine – система обробки проіндексованих сторінок. Завдання системи полягає у прийомі, обробці та розподілі сторінок сайтів за індексами.
Що секунду Caffeine обробляє сотні тисяч сторінок паралельно. Процес індексації відбувається постійно. Індекс оновлюється частинами.
Що відбувається усередині Caffeine?
Як працює Google Caffeine
Весь процес системи індексування:
Спочатку відбувається розвантаження даних, які зібрав пошуковий краулер Googlebot. Для швидкості обробки дані передаються в бінарному вигляді , тобто застосовується процес переведення структури даних в послідовність байтів.
Для обробки даних застосовується Protocol Buffers.
Protocol Buffers — протокол серіалізації (передачі) структурованих даних, запропонований Google як ефективна бінарна альтернатива текстовому формату XML
Після отримання даних система індексації конвертує дані у спеціальний формат, який здатні аналізувати роботи. Сторінка передається до лексера. Призначення лексера у пошуку та виправленні помилок у коді сторінки. Часто на сайтах зустрічаються помилки у коді. Провести аналіз контенту зі сторінок із помилками немає можливості технічно. З метою усунення помилок код аналізуються через HTML-лексер та автоматично виправляються.
Помилки на верстці сторінки прямо ніяк не впливають на ранжування. Приклад лексера — W3C HTML Validator .
Далі відбувається нормалізація даних. Сторінки розбиваються на фрагменти. Наприклад:
- Meta tags
- Title
- H1, h2, h3, h4, h5
- Інше
На останньому етапі включається система Collapsor .
Google Collapsor у системі індексації сайтів
Collapsor є підсистемою у системі індексації. Collapsor визначає, куди перемістити сторінку. Варіанти:
- Індекс проіндексованих сторінок, але марних;
- Індекс обслуговування або Serving Index.
Саме Колапсер надає сторінкам статусу soft 404. Колапсер фільтрує індекс від марних сторінок: товар відсутній, дублі, технічні сторінки та інше.
Як виявляються сторінки дублі? Через аналіз контрольної суми checksum для кожної сторінки, яка базується на словах на сторінці. У результаті якщо є дві сторінки з однаковою контрольною сумою, то аналізатор розцінює як дублі. Індексація сайту гарантує лише обробку сторінок . Потраплення сторінок у пошукову видачу залежить від оцінки сторінок Google Колапсером. На основі Serving Index формуються результати пошукової видачі.
Google Serving Index — Індекс обслуговування
Індекс обслуговування або Serving Index — основний індекс пошукової системи, що складається зі сторінок, які беруть участь у ранжируванні. Знаходиться в окремих дата-центрах, звідки користувачі одержують результати пошуку.
Документ потрапляє до Serving Index якщо:
- Код відповіді — 200;
- Немає заборони до індексації;
- Collapsor пропустив сторінку в індекс.
Пошукова система обробляє коди відповіді так:
- 200. Роботу треба обійти сторінку;
- 3XX. Роботу треба обійти сторінку, що відкривається за редиректом.
- 4XX та 5XX. Сторінка з таким кодом не повинна брати участь у пошуку. Якщо до моменту звернення робота сторінки була розміщена в пошуковій видачі, буде видалена з індексу.
Як перевірити наявність сторінок в індексі? Розберемося на прикладі сайту indexoid.com .
Перевірка індексації сайту в Яндекс з урахуванням усіх піддоменів сайту:
site:indexoid.com
Перевірка індексації в Яндекс по розділу:
url:chrome.google.com/*
Перевірка індексації сайту в системі Google з урахуванням усіх піддоменів сайту:
site:wixfy.com
Перевірка індексації у розділі:
url:chrome.google.com/*
З урахуванням входження до заголовків:
site:seopro.pp.ua intitle:yandex
Перевірка індексації у розділі:
inurl:chrome.google.com/*
Якщо сторінки перестали відкриватися, такі сторінки підлягають видаленню з індексу. Якщо сайт віддає код помилки, сторінки видаляються з індексу. Вразливість можуть експлуатувати конкуренти з видачі.
Питання та відповіді
Від чого залежить кількість сторінок, що підлягають індексації?
Максимальна кількість сторінок, що підлягають індексації при черговому обході сайту, роботом визначає метрика під назвою краулінговий бюджет. Значення розраховує планувальник сканування.
Як змінюються підходи щодо оптимізації індексу?
Підходи до оптимізації індексу сайту справді змінюються. Наприклад, якщо раніше наявність великого обсягу сторінок у пошуковій видачі позначалося позитивно на просуванні, то тепер ситуація інакша. Велика кількість сторінок в індексі дозволяло створювати на сайті значну статичну вагу посилання. Сигнал передавався через посилання на важливі внутрішні сторінки. В результаті ранжування важливих сторінок покращувалося.
Але алгоритми пошукових систем було покращено. Тактика перестала бути ефективною. Велика кількість сторінок на сайті має сенс лише у випадку, якщо сторінки можуть приносити трафік.
Висновки
Завдання щодо покращення індексації сайту вимагає уваги, оскільки впливає на позиції сайту в пошуковій видачі. Через сигнали Web Vitals на ранжування можуть впливати навіть сторінки закриті в robots.txt.
Відкритими до індексації мають бути такі сторінки:
- Сторінки, за якими планується залучення трафіку з пошукової видачі;
- Сторінки сайту, важливі для EAT .
Сторінки сайту можуть бути проіндексовані, але проігноровані при включенні до індексу обслуговування. Наведена інформація є достовірною та підтвердженою з офіційних джерел. В інших пошукових системах процес індексації схожий.