Robots.txt: zwodniczo ważny plik, którego potrzebują wszystkie strony internetowe

Opublikowane ponownie przez Plato

Obserwuje: 0

Plik robots.txt pomaga głównym wyszukiwarkom zrozumieć, gdzie mogą wchodzić w Twojej witrynie.

Chociaż główne wyszukiwarki obsługują plik robots.txt, nie wszystkie mogą przestrzegać zasad w ten sam sposób.

Poniżej opowiemy, czym jest plik robots.txt i jak można go używać.

Co to jest plik robots.txt?

Każdego dnia na Twoją witrynę przychodzą boty – znane również jako roboty lub pająki. Wyszukiwarki takie jak Google, Yahoo i Bing wysyłają te boty do Twojej witryny, aby umożliwić przeszukiwanie i indeksowanie jej treści oraz pojawić się w wynikach wyszukiwania.

Boty to dobra rzecz, ale w niektórych przypadkach nie chcesz, aby bot chodził po Twojej witrynie, przeszukując i indeksując wszystko. Tutaj właśnie pojawia się plik robots.txt.

Dodając określone dyrektywy do pliku robots.txt, nakazujesz botom indeksowanie tylko tych stron, które chcesz przeszukać.

Należy jednak pamiętać, że nie każdy bot będzie przestrzegał zasad, które zapiszesz w pliku robots.txt. Na przykład Google nie będzie słuchać żadnych wskazówek umieszczonych w pliku dotyczących częstotliwości indeksowania.

Czy potrzebujesz pliku robots.txt?

Nie, plik robots.txt nie jest wymagany w przypadku witryny internetowej.

Jeśli bot wejdzie na Twoją witrynę, a jej nie ma, po prostu przeszuka Twoją witrynę i zaindeksuje strony w normalny sposób.

Plik robot.txt jest potrzebny tylko wtedy, gdy chcesz mieć większą kontrolę nad tym, co jest indeksowane.

Niektóre korzyści z posiadania takiego urządzenia obejmują:

Pomóż zarządzać przeciążeniami serwera
Zapobiegaj marnotrawieniu indeksowania przez boty odwiedzające strony, których nie chcesz
Zachowaj prywatność niektórych folderów lub subdomen

Czy plik robots.txt może uniemożliwić indeksowanie treści?

Nie, nie możesz zatrzymać indeksowania treści i wyświetlania jej w wynikach wyszukiwania za pomocą pliku robots.txt.

Nie wszystkie roboty będą postępować zgodnie z instrukcjami w ten sam sposób, więc niektóre mogą indeksować treści, które ustawiłeś jako niewykrywalne lub indeksowane.

Ponadto, jeśli treść, której wyświetlanie w wynikach wyszukiwania chcesz uniemożliwić, zawiera linki zewnętrzne, spowoduje to również jej zaindeksowanie przez wyszukiwarki.

Jedynym sposobem, aby mieć pewność, że Twoje treści nie zostaną zaindeksowane, jest dodanie pliku metatag noindex na stronę. Ta linia kodu wygląda tak i zostanie umieszczona w kodzie HTML Twojej strony.

Należy pamiętać, że jeśli chcesz, aby wyszukiwarki nie indeksowały strony, musisz zezwolić na indeksowanie strony w pliku robots.txt.

Gdzie znajduje się plik robots.txt?

Plik robots.txt zawsze będzie znajdować się w domenie głównej witryny. Przykładowo nasz własny plik można znaleźć pod adresem https://www.hubspot.com/robots.txt.

Na większości stron internetowych powinieneś mieć dostęp do rzeczywistego pliku, abyś mógł go edytować na serwerze FTP lub uzyskując dostęp do Menedżera plików w CPanelu hosta.

Na niektórych platformach CMS plik można znaleźć bezpośrednio w obszarze administracyjnym. HubSpot na przykład to robi łatwo dostosować plik robots.txt plik ze swojego konta.

Jeśli korzystasz z WordPressa, dostęp do pliku robots.txt znajdziesz w folderze public_html Twojej witryny.

plik robots.txt w folderze public_html na Twojej stronie WordPress

WordPress domyślnie zawiera plik robots.txt przy nowej instalacji, która będzie zawierać następujące elementy:

User-agent: *

Disallow: / wp-admin /

Disallow: / wp-zawiera /

Powyższe nakazuje wszystkim botom przeszukiwanie wszystkich części witryny z wyjątkiem katalogów /wp-admin/ lub /wp-includes/.

Ale możesz chcieć utworzyć bardziej niezawodny plik. Poniżej pokażemy Ci, jak to zrobić.

Używa pliku Robots.txt

Może być wiele powodów, dla których chcesz dostosować plik robots.txt — od kontrolowania budżetu indeksowania po blokowanie przeszukiwania i indeksowania sekcji witryny internetowej. Przyjrzyjmy się teraz kilku powodom używania pliku robots.txt.

1. Zablokuj wszystkie roboty

Blokowanie wszystkim robotom dostępu do Twojej witryny nie jest czymś, co chciałbyś robić w aktywnej witrynie, ale jest świetną opcją w przypadku witryny programistycznej. Zablokowanie robotów zapobiegnie wyświetlaniu Twoich stron w wyszukiwarkach, co jest dobre, jeśli Twoje strony nie są jeszcze gotowe do przeglądania.

2. Zablokuj indeksowanie niektórych stron

Jednym z najpowszechniejszych i najbardziej przydatnych sposobów wykorzystania pliku robots.txt jest ograniczenie dostępu bota wyszukiwarki do części Twojej witryny. Może to pomóc zmaksymalizować budżet indeksowania i zapobiec pojawianiu się niechcianych stron w wynikach wyszukiwania.

Ważne jest, aby pamiętać, że to, że każesz botowi nie indeksować strony, nie oznacza, że tak się stanie nie daj się zaindeksować. Jeśli nie chcesz, aby strona pojawiała się w wynikach wyszukiwania, musisz dodać do niej metatag noindex.

Przykładowe dyrektywy dotyczące pliku Robots.txt

Plik robots.txt składa się z bloków linii dyrektyw. Każda dyrektywa zacznie się od klienta użytkownika, a poniżej zostaną umieszczone reguły dla tego klienta użytkownika.

Gdy konkretna wyszukiwarka trafi na Twoją witrynę, wyszuka odpowiedniego klienta użytkownika i przeczyta odnoszący się do niej blok.

Istnieje kilka dyrektyw, których możesz użyć w swoim pliku. Rozbijmy je teraz.

1. Agent użytkownika

Polecenie user-agent pozwala na kierowanie określonymi botami lub pająkami. Na przykład, jeśli chcesz kierować reklamy tylko na Bing lub Google, użyj tej dyrektywy.

Chociaż istnieją setki programów klienckich, poniżej znajdują się przykłady niektórych z najpopularniejszych opcji klienckich.

Klient użytkownika: Googlebot

Klient użytkownika: Googlebot-Image

Klient użytkownika: Googlebot-Mobile

Klient użytkownika: Googlebot-News

Klient użytkownika: Bingbot

Agent użytkownika: Baiduspider

Klient użytkownika: msnbot

Klient użytkownika: slurp (Yahoo)

Klient użytkownika: Yandex

Ważne jest, aby pamiętać — w klientach użytkownika rozróżniana jest wielkość liter, dlatego pamiętaj o ich poprawnym wpisaniu.

Klient użytkownika z symbolami wieloznacznymi

Wieloznaczny klient użytkownika jest oznaczony gwiazdką (*) i umożliwia łatwe zastosowanie dyrektywy do wszystkich istniejących programów użytkownika. Jeśli więc chcesz, aby do każdego bota miała zastosowanie określona reguła, możesz użyć tego klienta użytkownika.

User-agent: *

Klienci użytkownika będą przestrzegać wyłącznie zasad, które najbardziej ich dotyczą.

2. Nie zezwalaj

Dyrektywa disallow mówi wyszukiwarkom, aby nie przeszukiwały określonych stron lub katalogów witryny internetowej ani nie uzyskiwały do nich dostępu.

Poniżej znajduje się kilka przykładów użycia dyrektywy disallow.

Zablokuj dostęp do określonego folderu

W tym przykładzie mówimy wszystkim botom, aby nie indeksowały niczego w katalogu /portfolio na naszej stronie internetowej.

User-agent: *

Nie zezwalaj: /portfolio

Jeśli chcemy tylko, aby Bing nie indeksował tego katalogu, zamiast tego dodalibyśmy go w ten sposób:

Klient użytkownika: Bingbot

Nie zezwalaj: /portfolio

Blokuj pliki PDF i inne typy plików

Jeśli nie chcesz, aby Twoje pliki PDF lub inne typy plików były przeszukiwane, poniższa dyrektywa powinna pomóc. Mówimy wszystkim botom, że nie chcemy, aby przeszukiwane były jakiekolwiek pliki PDF. Znak $ na końcu informuje wyszukiwarkę, że to koniec adresu URL.

Więc jeśli mam plik pdf pod adresem mywebsite.com/site/myimportantinfo.pdf, wyszukiwarki nie będą miały do niego dostępu.

User-agent: *

Nie zezwalaj: *.pdf$

W przypadku plików programu PowerPoint możesz użyć:

User-agent: *

Nie zezwalaj: *.ppt$

Lepszą opcją może być utworzenie folderu na plik PDF lub inne pliki, a następnie uniemożliwienie robotom przeszukiwania go i noindexowanie całego katalogu za pomocą metatag.

Zablokuj dostęp do całej witryny

Ta dyrektywa jest szczególnie przydatna, jeśli masz witrynę programistyczną lub foldery testowe, która mówi wszystkim botom, aby w ogóle nie indeksowały Twojej witryny. Należy pamiętać o usunięciu tego elementu po uruchomieniu witryny, w przeciwnym razie wystąpią problemy z indeksacją.

User-agent: *

Znak * (gwiazdka), który widzisz powyżej, nazywamy wyrażeniem „symbol wieloznaczny”. Używając gwiazdki, sugerujemy, że poniższe zasady powinny mieć zastosowanie do wszystkich programów użytkownika.

3. Zezwól

Dyrektywa zezwalająca może pomóc w określeniu określonych stron lub katalogów, które chcesz do chcesz, aby boty miały dostęp i indeksowały. Może to być reguła zastępująca opcję zakazu, jak pokazano powyżej.

W poniższym przykładzie mówimy Googlebotowi, że nie chcemy, aby katalog portfolio był przeszukiwany, ale chcemy, aby można było uzyskać dostęp i przeszukać jeden konkretny element portfolio:

Klient użytkownika: Googlebot

Nie zezwalaj: /portfolio

Zezwalaj na: /portfolio/crawlableportfolio

4. Mapa strony

Dołączenie lokalizacji mapy witryny do pliku może ułatwić robotom wyszukiwarek indeksowanie mapy witryny.

Jeśli przesyłasz mapy witryn bezpośrednio do narzędzi dla webmasterów każdej wyszukiwarki, nie ma potrzeby dodawania ich do pliku robots.txt.

mapa witryny: https://yourwebsite.com/sitemap.xml

5. Opóźnienie indeksowania

Opóźnienie indeksowania może nakazać botowi spowolnienie indeksowania Twojej witryny, aby serwer nie został przeciążony. Poniższy przykład dyrektywy prosi firmę Yandex o odczekanie 10 sekund po każdej akcji indeksowania, jaką wykonuje w witrynie.

Klient użytkownika: Yandex

Opóźnienie indeksowania: 10

Jest to dyrektywa, z którą należy zachować ostrożność. W przypadku bardzo dużej witryny może znacznie zminimalizować liczbę adresów URL przeszukiwanych każdego dnia, co przyniosłoby efekt przeciwny do zamierzonego. Może to być jednak przydatne w mniejszych witrynach internetowych, gdzie boty odwiedzają nieco za dużo.

Uwaga: Opóźnienie indeksowania wynosi nieobsługiwane przez Google ani Baidu. Jeśli chcesz poprosić ich roboty o spowolnienie indeksowania Twojej witryny, musisz to zrobić poprzez swoje narzędzia.

Co to są wyrażenia regularne i symbole wieloznaczne?

Dopasowywanie wzorców to bardziej zaawansowany sposób kontrolowania sposobu, w jaki bot indeksuje Twoją witrynę za pomocą znaków.

Istnieją dwa wyrażenia, które są powszechne i używane zarówno przez Bing, jak i Google. Dyrektywy te mogą być szczególnie przydatne w witrynach e-commerce.

Gwiazdka: * jest traktowany jako symbol wieloznaczny i może reprezentować dowolny ciąg znaków

Znak dolara: $ służy do oznaczenia końca adresu URL

Dobrym przykładem użycia symbolu wieloznacznego * jest sytuacja, w której chcesz uniemożliwić wyszukiwarkom indeksowanie stron, które mogą zawierać znak zapytania. Poniższy kod mówi wszystkim botom, aby zignorowały indeksowanie adresów URL zawierających znak zapytania.

User-agent: *

Uniemożliwić: /*?

Jak utworzyć lub edytować plik Robots.txt

Jeśli nie masz jeszcze pliku robots.txt na swoim serwerze, możesz go łatwo dodać, wykonując poniższe czynności.

Otwórz preferowany edytor tekstu, aby rozpocząć nowy dokument. Typowymi edytorami, które mogą znajdować się na Twoim komputerze, są Notatnik, TextEdit lub Microsoft Word.
Dodaj dyrektywy, które chcesz uwzględnić w dokumencie.
Zapisz plik pod nazwą „robots.txt”
Przetestuj swój plik, jak pokazano w następnej sekcji
Prześlij plik .txt na swój serwer za pomocą FTP lub do swojego CPanelu. Sposób przesyłania zależy od rodzaju posiadanej witryny internetowej.

W WordPress możesz używać wtyczek takich jak Yoast, All In One SEO, Rank Math do generowania i edycji pliku.

Możesz także użyć Narzędzie do generowania pliku robots.txt aby pomóc Ci przygotować taki, który może pomóc zminimalizować błędy.

Jak przetestować plik Robots.txt

Zanim udostępnisz utworzony kod pliku robots.txt, przeprowadź go przez tester, aby upewnić się, że jest prawidłowy. Pomoże to uniknąć problemów z dodanymi nieprawidłowymi dyrektywami.

Narzędzie do testowania pliku robots.txt jest dostępne tylko w starej wersji Google Search Console. Jeśli Twoja witryna nie jest połączona z Google Search Console, musisz to najpierw zrobić.

Odwiedź Wsparcie Google następnie kliknij przycisk „otwórz tester pliku robots.txt”. Wybierz właściwość, którą chcesz przetestować, a następnie zostaniesz przeniesiony do ekranu takiego jak ten poniżej.

Aby przetestować nowy kod w pliku robots.txt, po prostu usuń zawartość aktualnie znajdującą się w polu i zastąp nowym kodem, a następnie kliknij „Testuj”. Jeśli odpowiedź na Twój test jest „dozwolona”, oznacza to, że Twój kod jest ważny i możesz poprawić swój aktualny plik za pomocą nowego kodu.

tester pliku robots.txt w pomocy Google

Mamy nadzieję, że dzięki temu postowi mniej się obawiasz przeglądania pliku robots.txt — ponieważ jest to jeden ze sposobów na poprawę rankingów i zwiększenie wysiłków SEO.

Źródło: https://blog.hubspot.com/marketing/robots-txt-file

Znak czasu: 3 czerwca 2021 r.

Więcej z Marketing

Jak korzystać z Instagram Insights (w 9 łatwych krokach)

Klaster źródłowy:

Marketing

Węzeł źródłowy: 1577891

Znak czasu: Jan 12, 2022

Co to jest sieć reklamowa i jak działa? [+9 sieci do wypróbowania]

Klaster źródłowy:

Marketing

Węzeł źródłowy: 1461426

Znak czasu: Listopada 9, 2021

6 rodzajów materiałów marketingu cyfrowego, które powinieneś stworzyć

Klaster źródłowy:

Opublikowane ponownie przez Plato

Co to jest plik robots.txt?

Czy potrzebujesz pliku robots.txt?

Czy plik robots.txt może uniemożliwić indeksowanie treści?

Gdzie znajduje się plik robots.txt?

Używa pliku Robots.txt

1. Zablokuj wszystkie roboty

2. Zablokuj indeksowanie niektórych stron

Przykładowe dyrektywy dotyczące pliku Robots.txt

1. Agent użytkownika

2. Nie zezwalaj

Zablokuj dostęp do określonego folderu

Blokuj pliki PDF i inne typy plików

Zablokuj dostęp do całej witryny

3. Zezwól

4. Mapa strony

5. Opóźnienie indeksowania

Co to są wyrażenia regularne i symbole wieloznaczne?

Jak utworzyć lub edytować plik Robots.txt

Jak przetestować plik Robots.txt

Więcej z Marketing

Jak korzystać z Instagram Insights (w 9 łatwych krokach)

Co to jest sieć reklamowa i jak działa? [+9 sieci do wypróbowania]

Pytania i odpowiedzi z Davidem Andersonem, założycielem i dyrektorem generalnym LionDesk

Jak prawidłowo outsourcingować SEO i unikać 5 najczęstszych błędów

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto