Robots.txt: оманливо важливий файл, необхідний усім веб-сайтам

Перевидано Платоном

читають: 0

Файл robots.txt допомагає основним пошуковим системам зрозуміти, куди їм дозволено переходити на вашому веб-сайті.

Але хоча основні пошукові системи підтримують файл robots.txt, вони не всі однаково дотримуються правил.

Нижче розглянемо, що таке файл robots.txt і як його можна використовувати.

Що таке файл robots.txt?

Щодня ваш сайт відвідують боти, також відомі як роботи або павуки. Такі пошукові системи, як Google, Yahoo та Bing, надсилають цих ботів на ваш сайт, щоб ваш вміст можна було сканувати та індексувати, а також відображаються в результатах пошуку.

Боти – це добре, але в деяких випадках ви не хочете, щоб бот бігав по вашому веб-сайту, сканував та індексував усе. Ось тут і з’являється файл robots.txt.

Додаючи певні директиви до файлу robots.txt, ви наказуєте роботам сканувати лише ті сторінки, які ви хочете просканувати.

Однак важливо розуміти, що не кожен бот буде дотримуватись правил, які ви записуєте у файлі robots.txt. Google, наприклад, не прислухається до будь-яких директив щодо частоти сканування, які ви розмістите у файлі.

Вам потрібен файл robots.txt?

Ні, для веб-сайту файл robots.txt не потрібен.

Якщо на ваш веб-сайт заходить бот, але його немає, він просто просканує ваш веб-сайт і проіндексує сторінки, як зазвичай.

Файл robot.txt потрібен, лише якщо ви хочете мати більше контролю над тим, що сканується.

Деякі переваги наявності такого:

Допоможіть керувати перевантаженням сервера
Запобігайте марним скануванням роботами, які відвідують непотрібні вам сторінки
Зберігайте певні папки або субдомени приватними

Чи може файл robots.txt запобігти індексуванню вмісту?

Ні, ви не можете зупинити індексування вмісту та його показ у результатах пошуку за допомогою файлу robots.txt.

Не всі роботи виконуватимуть інструкції однаково, тому деякі можуть індексувати вміст, який ви встановили, щоб не скануватися чи індексуватися.

Крім того, якщо вміст, який ви намагаєтеся запобігти відображенню в результатах пошуку, містить зовнішні посилання на нього, це також змусить пошукові системи індексувати його.

Єдиний спосіб гарантувати, що ваш вміст не буде проіндексовано, це додати a мета-тег noindex на сторінку. Цей рядок коду виглядає так і міститься в html вашої сторінки.

Важливо зазначити, що якщо ви хочете, щоб пошукові системи не індексували сторінку, вам потрібно буде дозволити сканування сторінки в robots.txt.

Де знаходиться файл robots.txt?

Файл robots.txt завжди розміщуватиметься в кореневому домені веб-сайту. Як приклад, наш власний файл можна знайти за адресою https://www.hubspot.com/robots.txt.

На більшості веб-сайтів ви повинні мати доступ до фактичного файлу, щоб ви могли редагувати його на FTP або за допомогою доступу до диспетчера файлів у хості CPanel.

На деяких платформах CMS ви можете знайти файл прямо у своїй адміністративній області. HubSpot, наприклад, робить це легко налаштувати файл robots.txt файл із вашого облікового запису.

Якщо ви використовуєте WordPress, доступ до файлу robots.txt можна знайти в папці public_html вашого веб-сайту.

файл robots.txt у папці public_html на вашому веб-сайті WordPress

WordPress за замовчуванням містить файл robots.txt із новою інсталяцією, яка включатиме наступне:

User-Agent: *

Заборонити: /wp-admin/

Заборонити: /wp-includes/

Наведене вище повідомляє всім роботам сканувати всі частини веб-сайту, за винятком того, що знаходиться в каталогах /wp-admin/ або /wp-includes/.

Але ви можете створити більш надійний файл. Нижче ми покажемо, як це зробити.

Використовується для файлу robots.txt

Може бути багато причин, чому ви хочете налаштувати файл robots.txt — від керування бюджетом сканування до блокування розділів веб-сайту від сканування та індексування. Давайте зараз розглянемо кілька причин використання файлу robots.txt.

1. Заблокуйте всі сканери

Блокування доступу всіх сканерів до вашого сайту – це не те, що ви хотіли б робити на активному веб-сайті, але це чудовий варіант для веб-сайту для розробки. Якщо ви заблокуєте сканери, це допоможе запобігти показу ваших сторінок у пошукових системах, що добре, якщо ваші сторінки ще не готові для перегляду.

2. Заборонити сканування певних сторінок

Одним із найпоширеніших і найкорисніших способів використання файлу robots.txt є обмеження доступу бота пошукової системи до частин вашого веб-сайту. Це може допомогти максимізувати ваш бюджет сканування та запобігти потраплянню небажаних сторінок у результати пошуку.

Важливо зауважити, що якщо ви наказали боту не сканувати сторінку, це не означає, що він буде не проіндексовано. Якщо ви не хочете, щоб сторінка відображалася в результатах пошуку, вам потрібно додати до сторінки метатег noindex.

Зразок директив файлу robots.txt

Файл robots.txt складається з блоків рядків директив. Кожна директива буде починатися з агента користувача, а потім під ним будуть розміщені правила для цього агента користувача.

Коли певна пошукова система потрапляє на ваш веб-сайт, вона шукатиме агента користувача, який до неї відноситься, і читатиме блок, який посилається на неї.

Є кілька директив, які можна використовувати у вашому файлі. Давайте розберемо їх зараз.

1. Агент користувача

Команда user-agent дозволяє націлюватися на певних ботів або павуків. Наприклад, якщо ви хочете націлити лише Bing або Google, це директива, яку ви скористаєтеся.

Хоча існують сотні агентів користувача, нижче наведено приклади деяких із найпоширеніших варіантів агентів користувача.

Агент користувача: Googlebot

Агент користувача: Googlebot-Image

Агент користувача: Googlebot-Mobile

Агент користувача: Googlebot-News

Агент користувача: Bingbot

Агент користувача: Baiduspider

Агент користувача: msnbot

Агент користувача: slurp (Yahoo)

Користувач-агент: yandex

Важливо зауважити — агенти користувача чутливі до регістру, тому вводьте їх належним чином.

Агент користувача підстановки

Агент користувача із символом узагальнення позначено зірочкою (*), що дає змогу легко застосувати директиву до всіх існуючих агентів користувача. Отже, якщо ви хочете, щоб до кожного бота застосовувалося певне правило, ви можете використовувати цей агент користувача.

User-Agent: *

Агенти користувачів дотримуватимуться лише тих правил, які їх найбільше стосуються.

2. Заборонити

Директива disallow повідомляє пошуковим системам не сканувати та не отримувати доступ до певних сторінок або каталогів на веб-сайті.

Нижче наведено кілька прикладів того, як можна використовувати директиву disallow.

Заблокувати доступ до певної папки

У цьому прикладі ми повідомляємо всім роботам не сканувати нічого в каталозі /portfolio на нашому веб-сайті.

User-Agent: *

Заборонити: /portfolio

Якщо ми хочемо, щоб Bing не сканував цей каталог, ми додамо його так:

Агент користувача: Bingbot

Заборонити: /portfolio

Блокування файлів PDF або інших типів

Якщо ви не бажаєте, щоб ваші файли PDF або файли інших типів сканувалися, наведена нижче директива має допомогти. Ми повідомляємо всім роботам, що ми не хочемо сканувати файли PDF. $ в кінці повідомляє пошуковій системі, що це кінець URL-адреси.

Отже, якщо у мене є файл pdf на mywebsite.com/site/myimportantinfo.pdf, пошукові системи не матимуть до нього доступу.

User-Agent: *

Заборонити: *.pdf$

Для файлів PowerPoint ви можете використовувати:

User-Agent: *

Заборонити: *.ppt$

Кращим варіантом може бути створення папки для PDF-файлів або інших файлів, а потім заборона сканерам сканувати її та неіндексація всього каталогу за допомогою метатег.

Заблокувати доступ до всього сайту

Особливо корисно, якщо у вас є веб-сайт розробки або тестові папки, ця директива повідомляє всім роботам взагалі не сканувати ваш сайт. Важливо не забувати видалити це, коли ви активуєте свій сайт, інакше у вас виникнуть проблеми з індексацією.

User-Agent: *

* (зірочка), яку ви бачите вище, — це те, що ми називаємо виразом підстановки. Коли ми використовуємо зірочку, ми маємо на увазі, що наведені нижче правила мають застосовуватися до всіх агентів користувача.

3. Дозволити

Директива allow може допомогти вам указати певні сторінки або каталоги, які ви do хочуть, щоб боти мали доступ і сканували. Це може бути правило заміни опції заборони, наведеної вище.

У наведеному нижче прикладі ми повідомляємо Googlebot, що ми не хочемо, щоб каталог портфоліо сканувався, але ми хочемо, щоб один конкретний елемент портфоліо був доступний і сканований:

Агент користувача: Googlebot

Заборонити: /portfolio

Дозволити: /portfolio/crawlableportfolio

4. Карта сайту

Включення розташування вашої карти сайту до вашого файлу може полегшити пошуковим роботам сканування вашої карти сайту.

Якщо ви надсилаєте свої мапи сайтів безпосередньо до інструментів для веб-майстрів кожної пошукової системи, їх не потрібно додавати до файлу robots.txt.

карта сайту: https://yourwebsite.com/sitemap.xml

5. Затримка сканування

Затримка сканування може наказати боту сповільнити роботу під час сканування вашого веб-сайту, щоб ваш сервер не перевантажувався. Наведений нижче приклад директиви просить Яндекс чекати 10 секунд після кожної дії сканування веб-сайту.

Користувач-агент: yandex

Затримка сканування: 10

З цією директивою слід бути обережним. На дуже великому веб-сайті це може значно мінімізувати кількість URL-адрес, сканованих щодня, що було б контрпродуктивним. Однак це може бути корисним на невеликих веб-сайтах, де боти надто часто відвідують.

Примітка. Затримка сканування не підтримується Google або Baidu. Якщо ви хочете попросити їхні сканери уповільнити сканування вашого веб-сайту, вам потрібно буде це зробити через свої інструменти.

Що таке регулярні вирази та символи підстановки?

Зіставлення шаблонів – це більш просунутий спосіб керування тим, як бот сканує ваш сайт за допомогою символів.

Існує два поширені вирази, які використовуються Bing і Google. Ці директиви можуть бути особливо корисними на веб-сайтах електронної комерції.

зірочка: * розглядається як символ підстановки та може представляти будь-яку послідовність символів

знак долара: $ використовується для позначення кінця URL-адреси

Хорошим прикладом використання символу підстановки * є сценарій, коли ви хочете запобігти скануванню пошуковими системами сторінок, на яких може бути знак питання. Наведений нижче код повідомляє всім роботам не звертати увагу на сканування будь-яких URL-адрес, у яких є знак питання.

User-Agent: *

Заборонити: /*?

Як створити або відредагувати файл robots.txt

Якщо на вашому сервері немає файлу robots.txt, ви можете легко додати його, виконавши наведені нижче дії.

Відкрийте потрібний текстовий редактор, щоб почати новий документ. Типовими редакторами, які можуть бути на вашому комп’ютері, є Блокнот, TextEdit або Microsoft Word.
Додайте директиви, які ви хочете включити до документа.
Збережіть файл під назвою «robots.txt»
Перевірте свій файл, як показано в наступному розділі
Завантажте файл .txt на свій сервер за допомогою FTP або в CPanel. Спосіб завантаження залежатиме від типу вашого веб-сайту.

У WordPress ви можете використовувати такі плагіни, як Yoast, All In One SEO, Rank Math, для створення та редагування файлу.

Ви також можете використовувати a Генератор robots.txt щоб допомогти вам підготувати такий, який міг би мінімізувати помилки.

Як перевірити файл robots.txt

Перш ніж опублікувати код файлу robots.txt, який ви створили, ви захочете запустити його через тестер, щоб переконатися, що він дійсний. Це допоможе запобігти проблемам із доданими неправильними директивами.

Інструмент тестування robots.txt доступний лише в старій версії Google Search Console. Якщо ваш веб-сайт не підключено до Google Search Console, спершу потрібно це зробити.

Відвідати Служба підтримки Google потім натисніть кнопку «відкрити тестер robots.txt». Виберіть властивість, яку ви хочете перевірити, і ви перейдете на екран, як показано нижче.

Щоб перевірити свій новий код robots.txt, просто видаліть те, що зараз є в полі, замініть новим кодом і натисніть «Тестувати». Якщо відповідь на ваш тест «дозволено», це означає, що ваш код дійсний, і ви можете переглянути фактичний файл за допомогою нового коду.

Тестер robots.txt у Службі підтримки Google

Сподіваюся, ця публікація змусила вас менше боятися копатися у вашому файлі robots.txt, тому що це є одним із способів покращити ваші рейтинги та посилити зусилля з оптимізації пошукових систем.

Джерело: https://blog.hubspot.com/marketing/robots-txt-file

Часова мітка: 3 Червня, 2021.

Часова мітка: Грудень 31, 2021

Robots.txt: оманливо важливий файл, необхідний усім веб-сайтам

Перевидано Платоном

Що таке файл robots.txt?

Вам потрібен файл robots.txt?

Чи може файл robots.txt запобігти індексуванню вмісту?

Де знаходиться файл robots.txt?

Використовується для файлу robots.txt

1. Заблокуйте всі сканери

2. Заборонити сканування певних сторінок

Зразок директив файлу robots.txt

1. Агент користувача

2. Заборонити

Заблокувати доступ до певної папки

Блокування файлів PDF або інших типів

Заблокувати доступ до всього сайту

3. Дозволити

4. Карта сайту

5. Затримка сканування

Що таке регулярні вирази та символи підстановки?

Як створити або відредагувати файл robots.txt

Як перевірити файл robots.txt

Більше від Маркетинг

Питання та відповіді з Девідом Андерсоном, засновником і генеральним директором LionDesk

Як команда електронної пошти HubSpot реагує на iOS 15

Як увімкнути рішення на основі даних шляхом інтеграції ваших програм

Фіксована вартість: що це таке та як її розрахувати

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки