Plik robots.txt pomaga głównym wyszukiwarkom zrozumieć, gdzie mogą wchodzić w Twojej witrynie.
Chociaż główne wyszukiwarki obsługują plik robots.txt, nie wszystkie mogą przestrzegać zasad w ten sam sposób.
Poniżej opowiemy, czym jest plik robots.txt i jak można go używać.
Co to jest plik robots.txt?
Każdego dnia na Twoją witrynę przychodzą boty – znane również jako roboty lub pająki. Wyszukiwarki takie jak Google, Yahoo i Bing wysyłają te boty do Twojej witryny, aby umożliwić przeszukiwanie i indeksowanie jej treści oraz pojawić się w wynikach wyszukiwania.
Boty to dobra rzecz, ale w niektórych przypadkach nie chcesz, aby bot chodził po Twojej witrynie, przeszukując i indeksując wszystko. Tutaj właśnie pojawia się plik robots.txt.
Dodając określone dyrektywy do pliku robots.txt, nakazujesz botom indeksowanie tylko tych stron, które chcesz przeszukać.
Należy jednak pamiętać, że nie każdy bot będzie przestrzegał zasad, które zapiszesz w pliku robots.txt. Na przykład Google nie będzie słuchać żadnych wskazówek umieszczonych w pliku dotyczących częstotliwości indeksowania.
Czy potrzebujesz pliku robots.txt?
Nie, plik robots.txt nie jest wymagany w przypadku witryny internetowej.
Jeśli bot wejdzie na Twoją witrynę, a jej nie ma, po prostu przeszuka Twoją witrynę i zaindeksuje strony w normalny sposób.
Plik robot.txt jest potrzebny tylko wtedy, gdy chcesz mieć większą kontrolę nad tym, co jest indeksowane.
Niektóre korzyści z posiadania takiego urządzenia obejmują:
- Pomóż zarządzać przeciążeniami serwera
- Zapobiegaj marnotrawieniu indeksowania przez boty odwiedzające strony, których nie chcesz
- Zachowaj prywatność niektórych folderów lub subdomen
Czy plik robots.txt może uniemożliwić indeksowanie treści?
Nie, nie możesz zatrzymać indeksowania treści i wyświetlania jej w wynikach wyszukiwania za pomocą pliku robots.txt.
Nie wszystkie roboty będą postępować zgodnie z instrukcjami w ten sam sposób, więc niektóre mogą indeksować treści, które ustawiłeś jako niewykrywalne lub indeksowane.
Ponadto, jeśli treść, której wyświetlanie w wynikach wyszukiwania chcesz uniemożliwić, zawiera linki zewnętrzne, spowoduje to również jej zaindeksowanie przez wyszukiwarki.
Jedynym sposobem, aby mieć pewność, że Twoje treści nie zostaną zaindeksowane, jest dodanie pliku metatag noindex na stronę. Ta linia kodu wygląda tak i zostanie umieszczona w kodzie HTML Twojej strony.
Należy pamiętać, że jeśli chcesz, aby wyszukiwarki nie indeksowały strony, musisz zezwolić na indeksowanie strony w pliku robots.txt.
Gdzie znajduje się plik robots.txt?
Plik robots.txt zawsze będzie znajdować się w domenie głównej witryny. Przykładowo nasz własny plik można znaleźć pod adresem https://www.hubspot.com/robots.txt.
Na większości stron internetowych powinieneś mieć dostęp do rzeczywistego pliku, abyś mógł go edytować na serwerze FTP lub uzyskując dostęp do Menedżera plików w CPanelu hosta.
Na niektórych platformach CMS plik można znaleźć bezpośrednio w obszarze administracyjnym. HubSpot na przykład to robi łatwo dostosować plik robots.txt plik ze swojego konta.
Jeśli korzystasz z WordPressa, dostęp do pliku robots.txt znajdziesz w folderze public_html Twojej witryny.
WordPress domyślnie zawiera plik robots.txt przy nowej instalacji, która będzie zawierać następujące elementy:
User-agent: *
Disallow: / wp-admin /
Disallow: / wp-zawiera /
Powyższe nakazuje wszystkim botom przeszukiwanie wszystkich części witryny z wyjątkiem katalogów /wp-admin/ lub /wp-includes/.
Ale możesz chcieć utworzyć bardziej niezawodny plik. Poniżej pokażemy Ci, jak to zrobić.
Używa pliku Robots.txt
Może być wiele powodów, dla których chcesz dostosować plik robots.txt — od kontrolowania budżetu indeksowania po blokowanie przeszukiwania i indeksowania sekcji witryny internetowej. Przyjrzyjmy się teraz kilku powodom używania pliku robots.txt.
1. Zablokuj wszystkie roboty
Blokowanie wszystkim robotom dostępu do Twojej witryny nie jest czymś, co chciałbyś robić w aktywnej witrynie, ale jest świetną opcją w przypadku witryny programistycznej. Zablokowanie robotów zapobiegnie wyświetlaniu Twoich stron w wyszukiwarkach, co jest dobre, jeśli Twoje strony nie są jeszcze gotowe do przeglądania.
2. Zablokuj indeksowanie niektórych stron
Jednym z najpowszechniejszych i najbardziej przydatnych sposobów wykorzystania pliku robots.txt jest ograniczenie dostępu bota wyszukiwarki do części Twojej witryny. Może to pomóc zmaksymalizować budżet indeksowania i zapobiec pojawianiu się niechcianych stron w wynikach wyszukiwania.
Ważne jest, aby pamiętać, że to, że każesz botowi nie indeksować strony, nie oznacza, że tak się stanie nie daj się zaindeksować. Jeśli nie chcesz, aby strona pojawiała się w wynikach wyszukiwania, musisz dodać do niej metatag noindex.
Przykładowe dyrektywy dotyczące pliku Robots.txt
Plik robots.txt składa się z bloków linii dyrektyw. Każda dyrektywa zacznie się od klienta użytkownika, a poniżej zostaną umieszczone reguły dla tego klienta użytkownika.
Gdy konkretna wyszukiwarka trafi na Twoją witrynę, wyszuka odpowiedniego klienta użytkownika i przeczyta odnoszący się do niej blok.
Istnieje kilka dyrektyw, których możesz użyć w swoim pliku. Rozbijmy je teraz.
1. Agent użytkownika
Polecenie user-agent pozwala na kierowanie określonymi botami lub pająkami. Na przykład, jeśli chcesz kierować reklamy tylko na Bing lub Google, użyj tej dyrektywy.
Chociaż istnieją setki programów klienckich, poniżej znajdują się przykłady niektórych z najpopularniejszych opcji klienckich.
Klient użytkownika: Googlebot
Klient użytkownika: Googlebot-Image
Klient użytkownika: Googlebot-Mobile
Klient użytkownika: Googlebot-News
Klient użytkownika: Bingbot
Agent użytkownika: Baiduspider
Klient użytkownika: msnbot
Klient użytkownika: slurp (Yahoo)
Klient użytkownika: Yandex
Ważne jest, aby pamiętać — w klientach użytkownika rozróżniana jest wielkość liter, dlatego pamiętaj o ich poprawnym wpisaniu.
Klient użytkownika z symbolami wieloznacznymi
Wieloznaczny klient użytkownika jest oznaczony gwiazdką (*) i umożliwia łatwe zastosowanie dyrektywy do wszystkich istniejących programów użytkownika. Jeśli więc chcesz, aby do każdego bota miała zastosowanie określona reguła, możesz użyć tego klienta użytkownika.
User-agent: *
Klienci użytkownika będą przestrzegać wyłącznie zasad, które najbardziej ich dotyczą.
2. Nie zezwalaj
Dyrektywa disallow mówi wyszukiwarkom, aby nie przeszukiwały określonych stron lub katalogów witryny internetowej ani nie uzyskiwały do nich dostępu.
Poniżej znajduje się kilka przykładów użycia dyrektywy disallow.
Zablokuj dostęp do określonego folderu
W tym przykładzie mówimy wszystkim botom, aby nie indeksowały niczego w katalogu /portfolio na naszej stronie internetowej.
User-agent: *
Nie zezwalaj: /portfolio
Jeśli chcemy tylko, aby Bing nie indeksował tego katalogu, zamiast tego dodalibyśmy go w ten sposób:
Klient użytkownika: Bingbot
Nie zezwalaj: /portfolio
Blokuj pliki PDF i inne typy plików
Jeśli nie chcesz, aby Twoje pliki PDF lub inne typy plików były przeszukiwane, poniższa dyrektywa powinna pomóc. Mówimy wszystkim botom, że nie chcemy, aby przeszukiwane były jakiekolwiek pliki PDF. Znak $ na końcu informuje wyszukiwarkę, że to koniec adresu URL.
Więc jeśli mam plik pdf pod adresem mywebsite.com/site/myimportantinfo.pdf, wyszukiwarki nie będą miały do niego dostępu.
User-agent: *
Nie zezwalaj: *.pdf$
W przypadku plików programu PowerPoint możesz użyć:
User-agent: *
Nie zezwalaj: *.ppt$
Lepszą opcją może być utworzenie folderu na plik PDF lub inne pliki, a następnie uniemożliwienie robotom przeszukiwania go i noindexowanie całego katalogu za pomocą metatag.
Zablokuj dostęp do całej witryny
Ta dyrektywa jest szczególnie przydatna, jeśli masz witrynę programistyczną lub foldery testowe, która mówi wszystkim botom, aby w ogóle nie indeksowały Twojej witryny. Należy pamiętać o usunięciu tego elementu po uruchomieniu witryny, w przeciwnym razie wystąpią problemy z indeksacją.
User-agent: *
Znak * (gwiazdka), który widzisz powyżej, nazywamy wyrażeniem „symbol wieloznaczny”. Używając gwiazdki, sugerujemy, że poniższe zasady powinny mieć zastosowanie do wszystkich programów użytkownika.
3. Zezwól
Dyrektywa zezwalająca może pomóc w określeniu określonych stron lub katalogów, które chcesz do chcesz, aby boty miały dostęp i indeksowały. Może to być reguła zastępująca opcję zakazu, jak pokazano powyżej.
W poniższym przykładzie mówimy Googlebotowi, że nie chcemy, aby katalog portfolio był przeszukiwany, ale chcemy, aby można było uzyskać dostęp i przeszukać jeden konkretny element portfolio:
Klient użytkownika: Googlebot
Nie zezwalaj: /portfolio
Zezwalaj na: /portfolio/crawlableportfolio
4. Mapa strony
Dołączenie lokalizacji mapy witryny do pliku może ułatwić robotom wyszukiwarek indeksowanie mapy witryny.
Jeśli przesyłasz mapy witryn bezpośrednio do narzędzi dla webmasterów każdej wyszukiwarki, nie ma potrzeby dodawania ich do pliku robots.txt.
mapa witryny: https://yourwebsite.com/sitemap.xml
5. Opóźnienie indeksowania
Opóźnienie indeksowania może nakazać botowi spowolnienie indeksowania Twojej witryny, aby serwer nie został przeciążony. Poniższy przykład dyrektywy prosi firmę Yandex o odczekanie 10 sekund po każdej akcji indeksowania, jaką wykonuje w witrynie.
Klient użytkownika: Yandex
Opóźnienie indeksowania: 10
Jest to dyrektywa, z którą należy zachować ostrożność. W przypadku bardzo dużej witryny może znacznie zminimalizować liczbę adresów URL przeszukiwanych każdego dnia, co przyniosłoby efekt przeciwny do zamierzonego. Może to być jednak przydatne w mniejszych witrynach internetowych, gdzie boty odwiedzają nieco za dużo.
Uwaga: Opóźnienie indeksowania wynosi nieobsługiwane przez Google ani Baidu. Jeśli chcesz poprosić ich roboty o spowolnienie indeksowania Twojej witryny, musisz to zrobić poprzez swoje narzędzia.
Co to są wyrażenia regularne i symbole wieloznaczne?
Dopasowywanie wzorców to bardziej zaawansowany sposób kontrolowania sposobu, w jaki bot indeksuje Twoją witrynę za pomocą znaków.
Istnieją dwa wyrażenia, które są powszechne i używane zarówno przez Bing, jak i Google. Dyrektywy te mogą być szczególnie przydatne w witrynach e-commerce.
Gwiazdka: * jest traktowany jako symbol wieloznaczny i może reprezentować dowolny ciąg znaków
Znak dolara: $ służy do oznaczenia końca adresu URL
Dobrym przykładem użycia symbolu wieloznacznego * jest sytuacja, w której chcesz uniemożliwić wyszukiwarkom indeksowanie stron, które mogą zawierać znak zapytania. Poniższy kod mówi wszystkim botom, aby zignorowały indeksowanie adresów URL zawierających znak zapytania.
User-agent: *
Uniemożliwić: /*?
Jak utworzyć lub edytować plik Robots.txt
Jeśli nie masz jeszcze pliku robots.txt na swoim serwerze, możesz go łatwo dodać, wykonując poniższe czynności.
- Otwórz preferowany edytor tekstu, aby rozpocząć nowy dokument. Typowymi edytorami, które mogą znajdować się na Twoim komputerze, są Notatnik, TextEdit lub Microsoft Word.
- Dodaj dyrektywy, które chcesz uwzględnić w dokumencie.
- Zapisz plik pod nazwą „robots.txt”
- Przetestuj swój plik, jak pokazano w następnej sekcji
- Prześlij plik .txt na swój serwer za pomocą FTP lub do swojego CPanelu. Sposób przesyłania zależy od rodzaju posiadanej witryny internetowej.
W WordPress możesz używać wtyczek takich jak Yoast, All In One SEO, Rank Math do generowania i edycji pliku.
Możesz także użyć Narzędzie do generowania pliku robots.txt aby pomóc Ci przygotować taki, który może pomóc zminimalizować błędy.
Jak przetestować plik Robots.txt
Zanim udostępnisz utworzony kod pliku robots.txt, przeprowadź go przez tester, aby upewnić się, że jest prawidłowy. Pomoże to uniknąć problemów z dodanymi nieprawidłowymi dyrektywami.
Narzędzie do testowania pliku robots.txt jest dostępne tylko w starej wersji Google Search Console. Jeśli Twoja witryna nie jest połączona z Google Search Console, musisz to najpierw zrobić.
Odwiedź Wsparcie Google następnie kliknij przycisk „otwórz tester pliku robots.txt”. Wybierz właściwość, którą chcesz przetestować, a następnie zostaniesz przeniesiony do ekranu takiego jak ten poniżej.
Aby przetestować nowy kod w pliku robots.txt, po prostu usuń zawartość aktualnie znajdującą się w polu i zastąp nowym kodem, a następnie kliknij „Testuj”. Jeśli odpowiedź na Twój test jest „dozwolona”, oznacza to, że Twój kod jest ważny i możesz poprawić swój aktualny plik za pomocą nowego kodu.
Mamy nadzieję, że dzięki temu postowi mniej się obawiasz przeglądania pliku robots.txt — ponieważ jest to jeden ze sposobów na poprawę rankingów i zwiększenie wysiłków SEO.
- dostęp
- Konto
- Działania
- aktywny
- Wszystkie kategorie
- POWIERZCHNIA
- na około
- Bing
- Bit
- Bot
- boty
- Pudełko
- wezwanie
- Etui
- Spowodować
- kod
- wspólny
- zawartość
- dzień
- opóźnienie
- oprogramowania
- ecommerce
- redaktor
- i terminów, a
- obserwuj
- Darmowy
- dobry
- Szukaj w Google
- wspaniały
- W jaki sposób
- HTTPS
- HubSpot
- Setki
- wskaźnik
- problemy
- IT
- zestaw
- duży
- Linia
- lokalizacja
- poważny
- znak
- matematyka
- Meta
- Microsoft
- Microsoft Word
- koncepcja
- Option
- Opcje
- Inne
- Platformy
- wtyczki
- teczka
- własność
- RE
- Przyczyny
- odpowiedź
- Efekt
- robot
- roboty
- reguły
- run
- bieganie
- Ekran
- Szukaj
- Wyszukiwarka
- Wyszukiwarki
- seo
- zestaw
- So
- początek
- wsparcie
- Utrzymany
- cel
- mówi
- test
- Testowanie
- Blok
- czekać
- Strona internetowa
- strony internetowe
- Co to jest
- WordPress
- XML
- Yahoo