Robots.txt: o arquivo enganosamente importante que todos os sites precisam

Republicado por Platão

seguidores: 0

O arquivo robots.txt ajuda os principais mecanismos de pesquisa a entender aonde podem ir no seu site.

Mas, embora os principais mecanismos de pesquisa ofereçam suporte ao arquivo robots.txt, eles podem não aderir às regras da mesma forma.

Abaixo, vamos detalhar o que é um arquivo robots.txt e como você pode usá-lo.

O que é um arquivo robots.txt?

Todos os dias, há visitas de bots ao seu site - também conhecidos como robôs ou spiders. Mecanismos de busca como Google, Yahoo e Bing enviam esses bots para o seu site para que seu conteúdo possa ser rastreado e indexado e aparecem nos resultados da pesquisa.

Bots são uma coisa boa, mas há alguns casos em que você não quer que o bot rode em seu site rastreando e indexando tudo. É aí que entra o arquivo robots.txt.

Ao adicionar certas diretivas a um arquivo robots.txt, você está direcionando os bots para rastrear apenas as páginas que deseja rastrear.

No entanto, é importante entender que nem todo bot vai aderir às regras que você escreve em seu arquivo robots.txt. O Google, por exemplo, não dará ouvidos a nenhuma diretiva que você coloque no arquivo sobre a frequência de rastreamento.

Você precisa de um arquivo robots.txt?

Não, um arquivo robots.txt não é necessário para um site.

Se um bot chegar ao seu site e não tiver um, ele apenas rastreará seu site e indexará as páginas como faria normalmente.

Um arquivo robots.txt só é necessário se você quiser ter mais controle sobre o que está sendo rastreado.

Alguns benefícios de ter um incluem:

Ajude a gerenciar sobrecargas de servidor
Evite o desperdício de rastreamento por bots que estão visitando páginas que você não deseja
Mantenha certas pastas ou subdomínios privados

Um arquivo robots.txt pode impedir a indexação de conteúdo?

Não, você não pode impedir que o conteúdo seja indexado e mostrado nos resultados da pesquisa com um arquivo robots.txt.

Nem todos os robôs seguirão as instruções da mesma maneira, portanto, alguns podem indexar o conteúdo que você definiu para não ser rastreado ou indexado.

Além disso, se o conteúdo que você está tentando impedir de ser exibido nos resultados da pesquisa tiver links externos para ele, isso também fará com que os mecanismos de pesquisa o indexem.

A única maneira de garantir que seu conteúdo não seja indexado é adicionar um meta tag noindex para a página. Esta linha de código tem esta aparência e irá para o html da sua página.

É importante observar que, se desejar que os mecanismos de pesquisa não indexem uma página, você precisará permitir que a página seja rastreada em robots.txt.

Onde está localizado o arquivo robots.txt?

O arquivo robots.txt sempre ficará no domínio raiz de um site. Por exemplo, nosso próprio arquivo pode ser encontrado em https://www.hubspot.com/robots.txt.

Na maioria dos sites, você deve conseguir acessar o arquivo real para editá-lo em um FTP ou acessando o Gerenciador de Arquivos no CPanel de seus hosts.

Em algumas plataformas CMS você pode encontrar o arquivo diretamente na sua área administrativa. HubSpot, por exemplo, torna fácil de personalizar o seu robots.txt arquivo de sua conta.

Se você estiver no WordPress, o arquivo robots.txt pode ser acessado na pasta public_html do seu site.

o arquivo robots.txt na pasta public_html em seu site WordPress

O WordPress inclui um arquivo robots.txt por padrão com uma nova instalação que incluirá o seguinte:

User-agent: *

Não permitir: / wp-admin /

Não permitir: / wp-includes /

O acima está dizendo a todos os bots para rastrear todas as partes do site, exceto qualquer coisa nos diretórios / wp-admin / ou / wp-includes /.

Mas você pode querer criar um arquivo mais robusto. Vamos mostrar como, abaixo.

Usos para um arquivo Robots.txt

Pode haver muitos motivos pelos quais você deseja personalizar seu arquivo robots.txt - desde controlar o orçamento de rastreamento até bloquear seções de um site de serem rastreadas e indexadas. Vamos explorar alguns motivos para usar um arquivo robots.txt agora.

1. Bloquear todos os rastreadores

Bloquear o acesso de todos os rastreadores ao seu site não é algo que você gostaria de fazer em um site ativo, mas é uma ótima opção para um site de desenvolvimento. Quando você bloqueia os rastreadores, isso ajuda a evitar que suas páginas sejam mostradas em mecanismos de pesquisa, o que é bom se suas páginas ainda não estiverem prontas para visualização.

2. Impedir que certas páginas sejam rastreadas

Uma das maneiras mais comuns e úteis de usar o arquivo robots.txt é limitar o acesso do bot do mecanismo de pesquisa a partes do seu site. Isso pode ajudar a maximizar seu orçamento de rastreamento e evitar que páginas indesejadas acabem nos resultados da pesquisa.

É importante notar que só porque você disse a um bot para não rastrear uma página, isso não significa que ele irá não seja indexado. Se você não quiser que uma página apareça nos resultados da pesquisa, você precisa adicionar uma metatag noindex à página.

Exemplo de diretivas de arquivo Robots.txt

O arquivo robots.txt é composto de blocos de linhas de diretivas. Cada diretiva começará com um agente de usuário e, em seguida, as regras para esse agente de usuário serão colocadas abaixo dele.

Quando um mecanismo de pesquisa específico chega ao seu site, ele procura o user-agent que se aplica a ele e lê o bloco que se refere a ele.

Existem várias diretivas que você pode usar em seu arquivo. Vamos decompô-los agora.

1. Usuário-Agente

O comando do agente do usuário permite que você direcione certos bots ou spiders. Por exemplo, se você deseja segmentar apenas o Bing ou o Google, esta é a diretiva que você usaria.

Embora existam centenas de agentes de usuário, abaixo estão exemplos de algumas das opções de agente de usuário mais comuns.

Agente do usuário: Googlebot

Agente do usuário: Googlebot-Image

Agente do usuário: Googlebot-Mobile

Agente do usuário: Googlebot-News

Agente do usuário: Bingbot

Agente do usuário: Baiduspider

Agente do usuário: msnbot

User-agent: slurp (Yahoo)

Agente do usuário: yandex

É importante observar - os agentes de usuário diferenciam maiúsculas de minúsculas, portanto, certifique-se de inseri-los corretamente.

Agente de usuário curinga

O agente do usuário curinga é indicado com um asterisco (*) e permite que você aplique facilmente uma diretiva a todos os agentes do usuário existentes. Então, se você quiser que uma regra específica se aplique a cada bot, você pode usar este agente de usuário.

User-agent: *

Os agentes do usuário seguirão apenas as regras que mais se aplicam a eles.

2. Não permitir

A diretiva disallow diz aos mecanismos de pesquisa para não rastrear ou acessar certas páginas ou diretórios em um site.

Abaixo estão vários exemplos de como você pode usar a diretiva disallow.

Bloquear o acesso a uma pasta específica

Neste exemplo, estamos dizendo a todos os bots para não rastrear nada no diretório / portfólio em nosso site.

User-agent: *

Disallow: / portfolio

Se quisermos apenas que o Bing não rastreie esse diretório, devemos adicioná-lo assim:

Agente do usuário: Bingbot

Disallow: / portfolio

Bloquear PDF ou outros tipos de arquivo

Se você não deseja que seu PDF ou outros tipos de arquivo sejam rastreados, a diretiva abaixo deve ajudar. Estamos dizendo a todos os bots que não queremos nenhum arquivo PDF rastreado. O $ no final informa ao mecanismo de pesquisa que é o final da URL.

Então, se eu tiver um arquivo pdf em meuwebsite.com/site/myimportantinfo.pdf, os motores de busca não irão acessá-lo.

User-agent: *

Disallow: * .pdf $

Para arquivos do PowerPoint, você pode usar:

User-agent: *

Disallow: * .ppt $

Uma opção melhor pode ser criar uma pasta para o seu PDF ou outros arquivos e, em seguida, impedir os rastreadores de rastreá-lo e noindex de todo o diretório com um meta tag.

Bloquear o acesso a todo o site

Particularmente útil se você tiver um site de desenvolvimento ou pastas de teste, essa diretiva diz a todos os bots para não rastrear seu site de forma alguma. É importante lembrar de remover isso ao colocar seu site no ar, ou você terá problemas de indexação.

User-agent: *

O * (asterisco) que você vê acima é o que chamamos de expressão “curinga”. Quando usamos um asterisco, estamos sugerindo que as regras abaixo devem ser aplicadas a todos os agentes de usuário.

3. Permitir

A diretiva allow pode ajudá-lo a especificar certas páginas ou diretórios que você do deseja que os bots acessem e rastreiem. Esta pode ser uma regra de substituição para a opção de proibição, vista acima.

No exemplo abaixo, informamos ao Googlebot que não queremos que o diretório do portfólio seja rastreado, mas queremos que um item específico do portfólio seja acessado e rastreado:

Agente do usuário: Googlebot

Disallow: / portfolio

Permitir: / portfólio / portfólio rastreável

4. Mapa do site

Incluir a localização do mapa do site no arquivo pode tornar mais fácil para os rastreadores do mecanismo de pesquisa rastrearem o mapa do site.

Se você enviar seus sitemaps diretamente para as ferramentas para webmasters de cada mecanismo de pesquisa, não será necessário adicioná-los ao arquivo robots.txt.

Mapa do site: https://yourwebsite.com/sitemap.xml

5. Atraso de rastreamento

O atraso de rastreamento pode dizer a um bot para desacelerar ao rastrear seu site para que o servidor não fique sobrecarregado. O exemplo de diretiva abaixo pede ao Yandex para aguardar 10 segundos após cada ação de rastreamento realizada no site.

Agente do usuário: yandex

Atraso de rastreamento: 10

Esta é uma diretiva com a qual você deve ter cuidado. Em um site muito grande, pode minimizar muito o número de URLs rastreados a cada dia, o que seria contraproducente. Isso pode ser útil em sites menores, no entanto, onde os bots estão visitando um pouco demais.

Observação: o atraso de rastreamento é não suportado pelo Google ou Baidu. Se você quiser pedir a seus rastreadores para retardar o rastreamento de seu site, você precisará fazê-lo através de suas ferramentas.

O que são expressões regulares e curingas?

A correspondência de padrões é uma forma mais avançada de controlar a maneira como um bot rastreia seu site com o uso de caracteres.

Existem duas expressões que são comuns e usadas tanto pelo Bing quanto pelo Google. Essas diretivas podem ser especialmente úteis em sites de comércio eletrônico.

Asterisco: * é tratado como um curinga e pode representar qualquer sequência de caracteres

Cifrão: $ é usado para designar o final de um URL

Um bom exemplo de uso do caractere curinga * é o cenário em que você deseja evitar que os mecanismos de pesquisa rastreiem páginas que possam ter um ponto de interrogação. O código a seguir diz a todos os bots para desconsiderar o rastreamento de quaisquer URLs que contenham um ponto de interrogação.

User-agent: *

Disallow: / *?

Como criar ou editar um arquivo Robots.txt

Se você não tiver um arquivo robots.txt existente em seu servidor, poderá adicionar um facilmente seguindo as etapas abaixo.

Abra seu editor de texto preferido para iniciar um novo documento. Os editores comuns que podem existir em seu computador são o Bloco de Notas, o TextEdit ou o Microsoft Word.
Adicione as diretivas que deseja incluir no documento.
Salve o arquivo com o nome de “robots.txt”
Teste seu arquivo conforme mostrado na próxima seção
Faça o upload do seu arquivo .txt para o seu servidor com um FTP ou no seu CPanel. A forma como você faz o upload dependerá do tipo de site que você possui.

No WordPress, você pode usar plug-ins como Yoast, All In One SEO e Rank Math para gerar e editar seu arquivo.

Você também pode usar um ferramenta gerador de robots.txt para ajudá-lo a preparar um que pode ajudar a minimizar erros.

Como testar um arquivo Robots.txt

Antes de colocar o código do arquivo robots.txt que você criou, execute-o por meio de um testador para garantir que seja válido. Isso ajudará a evitar problemas com diretivas incorretas que podem ter sido adicionadas.

A ferramenta de teste de robots.txt está disponível apenas na versão antiga do Google Search Console. Se o seu site não estiver conectado ao Google Search Console, você precisará fazer isso primeiro.

Visite o Suporte do Google página e, em seguida, clique no botão “abrir testador do robots.txt”. Selecione a propriedade que deseja testar e, em seguida, você será direcionado para uma tela, como a abaixo.

Para testar seu novo código de robots.txt, basta excluir o que está atualmente na caixa e substituir pelo novo código e clicar em “Testar”. Se a resposta ao seu teste for “permitida”, então seu código é válido e você pode revisar seu arquivo real com seu novo código.

o testador de robots.txt no Suporte do Google

Espero que esta postagem tenha feito você se sentir menos com medo de vasculhar seu arquivo robots.txt - porque fazer isso é uma maneira de melhorar sua classificação e impulsionar seus esforços de SEO.

Fonte: https://blog.hubspot.com/marketing/robots-txt-file

Carimbo de hora: 3 de Junho de 2021

Carimbo de hora: 12 de janeiro de 2022

Quais métricas de mídia social os profissionais de marketing estão rastreando? [Nova Pesquisa]

Grupo de origem:

Marketing

Nó Fonte: 1883518

Carimbo de hora: 25 de janeiro de 2022

Robots.txt: o arquivo enganosamente importante que todos os sites precisam

Republicado por Platão

O que é um arquivo robots.txt?

Você precisa de um arquivo robots.txt?

Um arquivo robots.txt pode impedir a indexação de conteúdo?

Onde está localizado o arquivo robots.txt?

Usos para um arquivo Robots.txt

1. Bloquear todos os rastreadores

2. Impedir que certas páginas sejam rastreadas

Exemplo de diretivas de arquivo Robots.txt

1. Usuário-Agente

2. Não permitir

Bloquear o acesso a uma pasta específica

Bloquear PDF ou outros tipos de arquivo

Bloquear o acesso a todo o site

3. Permitir

4. Mapa do site

5. Atraso de rastreamento

O que são expressões regulares e curingas?

Como criar ou editar um arquivo Robots.txt

Como testar um arquivo Robots.txt

Mais de Marketing

Como construir uma forte estratégia de operações para sua empresa B2B

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta