O arquivo robots.txt ajuda os principais mecanismos de pesquisa a entender aonde podem ir no seu site.
Mas, embora os principais mecanismos de pesquisa ofereçam suporte ao arquivo robots.txt, eles podem não aderir às regras da mesma forma.
Abaixo, vamos detalhar o que é um arquivo robots.txt e como você pode usá-lo.
O que é um arquivo robots.txt?
Todos os dias, há visitas de bots ao seu site - também conhecidos como robôs ou spiders. Mecanismos de busca como Google, Yahoo e Bing enviam esses bots para o seu site para que seu conteúdo possa ser rastreado e indexado e aparecem nos resultados da pesquisa.
Bots são uma coisa boa, mas há alguns casos em que você não quer que o bot rode em seu site rastreando e indexando tudo. É aí que entra o arquivo robots.txt.
Ao adicionar certas diretivas a um arquivo robots.txt, você está direcionando os bots para rastrear apenas as páginas que deseja rastrear.
No entanto, é importante entender que nem todo bot vai aderir às regras que você escreve em seu arquivo robots.txt. O Google, por exemplo, não dará ouvidos a nenhuma diretiva que você coloque no arquivo sobre a frequência de rastreamento.
Você precisa de um arquivo robots.txt?
Não, um arquivo robots.txt não é necessário para um site.
Se um bot chegar ao seu site e não tiver um, ele apenas rastreará seu site e indexará as páginas como faria normalmente.
Um arquivo robots.txt só é necessário se você quiser ter mais controle sobre o que está sendo rastreado.
Alguns benefícios de ter um incluem:
- Ajude a gerenciar sobrecargas de servidor
- Evite o desperdício de rastreamento por bots que estão visitando páginas que você não deseja
- Mantenha certas pastas ou subdomínios privados
Um arquivo robots.txt pode impedir a indexação de conteúdo?
Não, você não pode impedir que o conteúdo seja indexado e mostrado nos resultados da pesquisa com um arquivo robots.txt.
Nem todos os robôs seguirão as instruções da mesma maneira, portanto, alguns podem indexar o conteúdo que você definiu para não ser rastreado ou indexado.
Além disso, se o conteúdo que você está tentando impedir de ser exibido nos resultados da pesquisa tiver links externos para ele, isso também fará com que os mecanismos de pesquisa o indexem.
A única maneira de garantir que seu conteúdo não seja indexado é adicionar um meta tag noindex para a página. Esta linha de código tem esta aparência e irá para o html da sua página.
É importante observar que, se desejar que os mecanismos de pesquisa não indexem uma página, você precisará permitir que a página seja rastreada em robots.txt.
Onde está localizado o arquivo robots.txt?
O arquivo robots.txt sempre ficará no domínio raiz de um site. Por exemplo, nosso próprio arquivo pode ser encontrado em https://www.hubspot.com/robots.txt.
Na maioria dos sites, você deve conseguir acessar o arquivo real para editá-lo em um FTP ou acessando o Gerenciador de Arquivos no CPanel de seus hosts.
Em algumas plataformas CMS você pode encontrar o arquivo diretamente na sua área administrativa. HubSpot, por exemplo, torna fácil de personalizar o seu robots.txt arquivo de sua conta.
Se você estiver no WordPress, o arquivo robots.txt pode ser acessado na pasta public_html do seu site.
O WordPress inclui um arquivo robots.txt por padrão com uma nova instalação que incluirá o seguinte:
User-agent: *
Não permitir: / wp-admin /
Não permitir: / wp-includes /
O acima está dizendo a todos os bots para rastrear todas as partes do site, exceto qualquer coisa nos diretórios / wp-admin / ou / wp-includes /.
Mas você pode querer criar um arquivo mais robusto. Vamos mostrar como, abaixo.
Usos para um arquivo Robots.txt
Pode haver muitos motivos pelos quais você deseja personalizar seu arquivo robots.txt - desde controlar o orçamento de rastreamento até bloquear seções de um site de serem rastreadas e indexadas. Vamos explorar alguns motivos para usar um arquivo robots.txt agora.
1. Bloquear todos os rastreadores
Bloquear o acesso de todos os rastreadores ao seu site não é algo que você gostaria de fazer em um site ativo, mas é uma ótima opção para um site de desenvolvimento. Quando você bloqueia os rastreadores, isso ajuda a evitar que suas páginas sejam mostradas em mecanismos de pesquisa, o que é bom se suas páginas ainda não estiverem prontas para visualização.
2. Impedir que certas páginas sejam rastreadas
Uma das maneiras mais comuns e úteis de usar o arquivo robots.txt é limitar o acesso do bot do mecanismo de pesquisa a partes do seu site. Isso pode ajudar a maximizar seu orçamento de rastreamento e evitar que páginas indesejadas acabem nos resultados da pesquisa.
É importante notar que só porque você disse a um bot para não rastrear uma página, isso não significa que ele irá não seja indexado. Se você não quiser que uma página apareça nos resultados da pesquisa, você precisa adicionar uma metatag noindex à página.
Exemplo de diretivas de arquivo Robots.txt
O arquivo robots.txt é composto de blocos de linhas de diretivas. Cada diretiva começará com um agente de usuário e, em seguida, as regras para esse agente de usuário serão colocadas abaixo dele.
Quando um mecanismo de pesquisa específico chega ao seu site, ele procura o user-agent que se aplica a ele e lê o bloco que se refere a ele.
Existem várias diretivas que você pode usar em seu arquivo. Vamos decompô-los agora.
1. Usuário-Agente
O comando do agente do usuário permite que você direcione certos bots ou spiders. Por exemplo, se você deseja segmentar apenas o Bing ou o Google, esta é a diretiva que você usaria.
Embora existam centenas de agentes de usuário, abaixo estão exemplos de algumas das opções de agente de usuário mais comuns.
Agente do usuário: Googlebot
Agente do usuário: Googlebot-Image
Agente do usuário: Googlebot-Mobile
Agente do usuário: Googlebot-News
Agente do usuário: Bingbot
Agente do usuário: Baiduspider
Agente do usuário: msnbot
User-agent: slurp (Yahoo)
Agente do usuário: yandex
É importante observar - os agentes de usuário diferenciam maiúsculas de minúsculas, portanto, certifique-se de inseri-los corretamente.
Agente de usuário curinga
O agente do usuário curinga é indicado com um asterisco (*) e permite que você aplique facilmente uma diretiva a todos os agentes do usuário existentes. Então, se você quiser que uma regra específica se aplique a cada bot, você pode usar este agente de usuário.
User-agent: *
Os agentes do usuário seguirão apenas as regras que mais se aplicam a eles.
2. Não permitir
A diretiva disallow diz aos mecanismos de pesquisa para não rastrear ou acessar certas páginas ou diretórios em um site.
Abaixo estão vários exemplos de como você pode usar a diretiva disallow.
Bloquear o acesso a uma pasta específica
Neste exemplo, estamos dizendo a todos os bots para não rastrear nada no diretório / portfólio em nosso site.
User-agent: *
Disallow: / portfolio
Se quisermos apenas que o Bing não rastreie esse diretório, devemos adicioná-lo assim:
Agente do usuário: Bingbot
Disallow: / portfolio
Bloquear PDF ou outros tipos de arquivo
Se você não deseja que seu PDF ou outros tipos de arquivo sejam rastreados, a diretiva abaixo deve ajudar. Estamos dizendo a todos os bots que não queremos nenhum arquivo PDF rastreado. O $ no final informa ao mecanismo de pesquisa que é o final da URL.
Então, se eu tiver um arquivo pdf em meuwebsite.com/site/myimportantinfo.pdf, os motores de busca não irão acessá-lo.
User-agent: *
Disallow: * .pdf $
Para arquivos do PowerPoint, você pode usar:
User-agent: *
Disallow: * .ppt $
Uma opção melhor pode ser criar uma pasta para o seu PDF ou outros arquivos e, em seguida, impedir os rastreadores de rastreá-lo e noindex de todo o diretório com um meta tag.
Bloquear o acesso a todo o site
Particularmente útil se você tiver um site de desenvolvimento ou pastas de teste, essa diretiva diz a todos os bots para não rastrear seu site de forma alguma. É importante lembrar de remover isso ao colocar seu site no ar, ou você terá problemas de indexação.
User-agent: *
O * (asterisco) que você vê acima é o que chamamos de expressão “curinga”. Quando usamos um asterisco, estamos sugerindo que as regras abaixo devem ser aplicadas a todos os agentes de usuário.
3. Permitir
A diretiva allow pode ajudá-lo a especificar certas páginas ou diretórios que você do deseja que os bots acessem e rastreiem. Esta pode ser uma regra de substituição para a opção de proibição, vista acima.
No exemplo abaixo, informamos ao Googlebot que não queremos que o diretório do portfólio seja rastreado, mas queremos que um item específico do portfólio seja acessado e rastreado:
Agente do usuário: Googlebot
Disallow: / portfolio
Permitir: / portfólio / portfólio rastreável
4. Mapa do site
Incluir a localização do mapa do site no arquivo pode tornar mais fácil para os rastreadores do mecanismo de pesquisa rastrearem o mapa do site.
Se você enviar seus sitemaps diretamente para as ferramentas para webmasters de cada mecanismo de pesquisa, não será necessário adicioná-los ao arquivo robots.txt.
Mapa do site: https://yourwebsite.com/sitemap.xml
5. Atraso de rastreamento
O atraso de rastreamento pode dizer a um bot para desacelerar ao rastrear seu site para que o servidor não fique sobrecarregado. O exemplo de diretiva abaixo pede ao Yandex para aguardar 10 segundos após cada ação de rastreamento realizada no site.
Agente do usuário: yandex
Atraso de rastreamento: 10
Esta é uma diretiva com a qual você deve ter cuidado. Em um site muito grande, pode minimizar muito o número de URLs rastreados a cada dia, o que seria contraproducente. Isso pode ser útil em sites menores, no entanto, onde os bots estão visitando um pouco demais.
Observação: o atraso de rastreamento é não suportado pelo Google ou Baidu. Se você quiser pedir a seus rastreadores para retardar o rastreamento de seu site, você precisará fazê-lo através de suas ferramentas.
O que são expressões regulares e curingas?
A correspondência de padrões é uma forma mais avançada de controlar a maneira como um bot rastreia seu site com o uso de caracteres.
Existem duas expressões que são comuns e usadas tanto pelo Bing quanto pelo Google. Essas diretivas podem ser especialmente úteis em sites de comércio eletrônico.
Asterisco: * é tratado como um curinga e pode representar qualquer sequência de caracteres
Cifrão: $ é usado para designar o final de um URL
Um bom exemplo de uso do caractere curinga * é o cenário em que você deseja evitar que os mecanismos de pesquisa rastreiem páginas que possam ter um ponto de interrogação. O código a seguir diz a todos os bots para desconsiderar o rastreamento de quaisquer URLs que contenham um ponto de interrogação.
User-agent: *
Disallow: / *?
Como criar ou editar um arquivo Robots.txt
Se você não tiver um arquivo robots.txt existente em seu servidor, poderá adicionar um facilmente seguindo as etapas abaixo.
- Abra seu editor de texto preferido para iniciar um novo documento. Os editores comuns que podem existir em seu computador são o Bloco de Notas, o TextEdit ou o Microsoft Word.
- Adicione as diretivas que deseja incluir no documento.
- Salve o arquivo com o nome de “robots.txt”
- Teste seu arquivo conforme mostrado na próxima seção
- Faça o upload do seu arquivo .txt para o seu servidor com um FTP ou no seu CPanel. A forma como você faz o upload dependerá do tipo de site que você possui.
No WordPress, você pode usar plug-ins como Yoast, All In One SEO e Rank Math para gerar e editar seu arquivo.
Você também pode usar um ferramenta gerador de robots.txt para ajudá-lo a preparar um que pode ajudar a minimizar erros.
Como testar um arquivo Robots.txt
Antes de colocar o código do arquivo robots.txt que você criou, execute-o por meio de um testador para garantir que seja válido. Isso ajudará a evitar problemas com diretivas incorretas que podem ter sido adicionadas.
A ferramenta de teste de robots.txt está disponível apenas na versão antiga do Google Search Console. Se o seu site não estiver conectado ao Google Search Console, você precisará fazer isso primeiro.
Visite o Suporte do Google página e, em seguida, clique no botão “abrir testador do robots.txt”. Selecione a propriedade que deseja testar e, em seguida, você será direcionado para uma tela, como a abaixo.
Para testar seu novo código de robots.txt, basta excluir o que está atualmente na caixa e substituir pelo novo código e clicar em “Testar”. Se a resposta ao seu teste for “permitida”, então seu código é válido e você pode revisar seu arquivo real com seu novo código.
Espero que esta postagem tenha feito você se sentir menos com medo de vasculhar seu arquivo robots.txt - porque fazer isso é uma maneira de melhorar sua classificação e impulsionar seus esforços de SEO.
- Acesso
- Conta
- Açao Social
- ativo
- Todos os Produtos
- ÁREA
- por aí
- Bing
- Pouco
- Bot
- bots
- Caixa
- chamada
- casos
- Causar
- código
- comum
- conteúdo
- dia
- atraso
- Desenvolvimento
- Loja virtual
- editor
- Primeiro nome
- seguir
- Gratuito
- Bom estado, com sinais de uso
- Pesquisa do Google
- ótimo
- Como funciona o dobrador de carta de canal
- HTTPS
- HubSpot
- Centenas
- índice
- questões
- IT
- de emergência
- grande
- Line
- localização
- principal
- marca
- matemática
- Meta
- Microsoft
- Microsoft Word
- aberto
- Opção
- Opções
- Outros
- Plataformas
- plugins
- pasta
- propriedade
- RE
- razões
- resposta
- Resultados
- robô
- robôs
- regras
- Execute
- corrida
- Peneira
- Pesquisar
- motor de busca
- Mecanismos de busca
- seo
- conjunto
- So
- começo
- ajuda
- Suportado
- Target
- conta
- teste
- ensaio
- O bloco
- esperar
- Site
- sites
- O que é a
- WordPress
- XML
- Yahoo