Ранжування сайтів у видачі пошукових систем відбувається на підставі індексування вмісту пошуковими роботами. Результат індексації — списки URL, які регулярно перевіряються щодо якості та відповідності контенту.
При виявленні нового посилання робот додає її до списку і сторінка стає доступною у результатах пошуку.
ПРИЗНАЧЕННЯ ТА ЗМІСТ
Robots.txt – інструкція, яку розробники сайту залишають для пошукових роботів. При індексації ресурсу вони насамперед звертаються до цього файлу за вказівками до дії стосовно тих чи інших сторінок.
Зміст текстового документа robots.txt визначає такі дії роботів:
-
Дозвіл або заборона індексації певних елементів — розділів або сторінок.
-
Вказівка адреси актуального дзеркального посилання сайту.
-
Встановлює інтервал часу, призначений для завантаження контенту.
Відсутність файлу robots.txt з інструкціями фактично означає дозвіл на індексування повного обсягу вмісту сайту. У цьому випадку суттєво збільшується навантаження пошукових систем на ресурс, а швидкість індексації знижується через великий обсяг оброблюваної інформації. Якщо деякі елементи вмісту не повною мірою відповідають вимогам пошукових систем, це негативно позначається на підсумковій позиції у видачі. Наявність грамотно складеного документа robots.txt гарантує, що роботи побачать лише те, що необхідно власнику, залишивши без уваги дубльовані або неякісно наповнені сторінки.
ДИРЕКТИВИ, ЯКІ ПРОПИСУЮТЬСЯ В ROBOTS.TXT
Для створення файлу robots.txt не знадобиться особливих навичок, процедура гранично проста — створюємо новий документ розширенням .txt під назвою robots. Далі потрібно заповнити його директивами, які визначають поведінку роботів на сайті. Перелік цих команд було розроблено у 1994 році, а через два роки доповнено.
Розглянемо основні директиви, що прописуються в robots.txt:
-
User-agent — формує список роботів, які мають виконувати перелічені директиви;
-
Allow/Disallow — дозвіл/заборона на індексування вмісту певної частини ресурсу;
-
Sitemap – команда надає машинам маршрут шляху до необхідної сторінки;
-
Host — директива позначає основне дзеркало сайту, що вказується один раз наприкінці тексту у файлі robots.txt;
-
Crawl-delay – встановлює проміжок часу між завантаженнями;
-
Clean-param — спеціальна команда для роботів Яндекса, яка встановлює заборону на індексацію сторінок з певними параметрами.
Головний параметр файлу robots.txt — його розмір. Якщо він перевищує 32 КБайт, доступ до індексування автоматично відкривається для всього вмісту ресурсу.