Robots.txt: Tệp quan trọng được cho là tất cả các trang web cần

Được xuất bản lại bởi Plato

Người theo dõi: 0

Tệp robots.txt giúp các công cụ tìm kiếm chính hiểu được nơi chúng được phép truy cập trên trang web của bạn.

Tuy nhiên, mặc dù các công cụ tìm kiếm chính đều hỗ trợ tệp robots.txt nhưng không phải tất cả chúng đều tuân thủ các quy tắc theo cùng một cách.

Dưới đây, hãy phân tích tệp robots.txt là gì và cách bạn có thể sử dụng tệp đó.

Tệp robots.txt là gì?

Mỗi ngày, có những lượt truy cập vào trang web của bạn từ bot – còn được gọi là robot hoặc nhện. Các công cụ tìm kiếm như Google, Yahoo và Bing gửi các bot này đến trang web của bạn để nội dung của bạn có thể được thu thập và lập chỉ mục và xuất hiện trong kết quả tìm kiếm.

Bot là một điều tốt, nhưng có một số trường hợp bạn không muốn bot chạy khắp trang web của mình để thu thập dữ liệu và lập chỉ mục mọi thứ. Đó là nơi xuất hiện tệp robots.txt.

Bằng cách thêm một số lệnh nhất định vào tệp robots.txt, bạn đang hướng dẫn các bot chỉ thu thập dữ liệu những trang bạn muốn thu thập dữ liệu.

Tuy nhiên, điều quan trọng là bạn phải hiểu rằng không phải mọi bot đều tuân thủ các quy tắc bạn viết trong tệp robots.txt của mình. Ví dụ: Google sẽ không lắng nghe bất kỳ chỉ thị nào bạn đặt trong tệp về tần suất thu thập thông tin.

Bạn có cần tệp robots.txt không?

Không, trang web không cần có tệp robots.txt.

Nếu bot truy cập trang web của bạn và không có trang web này, nó sẽ chỉ thu thập dữ liệu trang web và các trang lập chỉ mục của bạn như bình thường.

Tệp robot.txt chỉ cần thiết nếu bạn muốn có nhiều quyền kiểm soát hơn đối với nội dung đang được thu thập thông tin.

Một số lợi ích khi có một cái bao gồm:

Giúp quản lý tình trạng quá tải máy chủ
Ngăn chặn lãng phí thu thập dữ liệu bởi các bot đang truy cập các trang mà bạn không muốn chúng truy cập
Giữ một số thư mục hoặc tên miền phụ ở chế độ riêng tư

Tệp robots.txt có thể ngăn chặn việc lập chỉ mục nội dung không?

Không, bạn không thể ngăn nội dung được lập chỉ mục và hiển thị trong kết quả tìm kiếm bằng tệp robots.txt.

Không phải tất cả rô-bốt đều làm theo hướng dẫn theo cùng một cách, vì vậy một số rô-bốt có thể lập chỉ mục nội dung bạn đặt thành không được thu thập thông tin hoặc lập chỉ mục.

Ngoài ra, nếu nội dung bạn đang cố gắng ngăn hiển thị trong kết quả tìm kiếm có liên kết bên ngoài đến nội dung đó, điều đó cũng sẽ khiến các công cụ tìm kiếm lập chỉ mục nội dung đó.

Cách duy nhất để đảm bảo nội dung của bạn không được lập chỉ mục là thêm một thẻ meta noindex đến trang. Dòng mã này trông như thế này và sẽ có trong phần html của trang của bạn.

Điều quan trọng cần lưu ý là nếu bạn muốn công cụ tìm kiếm không lập chỉ mục một trang, bạn cần cho phép thu thập thông tin trang đó trong robots.txt.

Tệp robots.txt nằm ở đâu?

Tệp robots.txt sẽ luôn nằm ở miền gốc của trang web. Ví dụ: tệp của chúng tôi có thể được tìm thấy tại https://www.hubspot.com/robots.txt.

Trong hầu hết các trang web, bạn sẽ có thể truy cập tệp thực tế để có thể chỉnh sửa tệp đó trong FTP hoặc bằng cách truy cập Trình quản lý tệp trong CPanel máy chủ của bạn.

Trong một số nền tảng CMS, bạn có thể tìm thấy tệp ngay trong khu vực quản trị của mình. Ví dụ, HubSpot đã làm được điều đó dễ dàng tùy chỉnh robots.txt của bạn tập tin từ tài khoản của bạn.

Nếu bạn đang sử dụng WordPress, tệp robots.txt có thể được truy cập trong thư mục public_html trên trang web của bạn.

tệp robots.txt trong thư mục public_html trên trang web WordPress của bạn

WordPress bao gồm tệp robots.txt theo mặc định với bản cài đặt mới sẽ bao gồm những thứ sau:

User-agent: *

Không cho phép: /wp-admin/

Không cho phép: /wp-includes/

Ở trên yêu cầu tất cả các bot thu thập dữ liệu tất cả các phần của trang web ngoại trừ mọi phần trong thư mục /wp-admin/ hoặc /wp-includes/.

Nhưng bạn có thể muốn tạo một tập tin mạnh mẽ hơn. Hãy chỉ cho bạn cách thực hiện bên dưới.

Công dụng của tệp Robots.txt

Có thể có nhiều lý do khiến bạn muốn tùy chỉnh tệp robots.txt của mình — từ kiểm soát ngân sách thu thập dữ liệu đến chặn thu thập dữ liệu và lập chỉ mục các phần của trang web. Bây giờ chúng ta hãy khám phá một số lý do nên sử dụng tệp robots.txt.

1. Chặn tất cả trình thu thập thông tin

Chặn tất cả các trình thu thập thông tin truy cập vào trang web của bạn không phải là điều bạn muốn làm trên một trang web đang hoạt động nhưng là một lựa chọn tuyệt vời cho một trang web phát triển. Khi bạn chặn trình thu thập thông tin, điều này sẽ giúp ngăn các trang của bạn hiển thị trên các công cụ tìm kiếm, điều này tốt nếu các trang của bạn chưa sẵn sàng để xem.

2. Không cho phép thu thập thông tin một số trang nhất định

Một trong những cách phổ biến và hữu ích nhất để sử dụng tệp robots.txt là hạn chế quyền truy cập của bot công cụ tìm kiếm vào các phần trên trang web của bạn. Điều này có thể giúp tối đa hóa ngân sách thu thập dữ liệu của bạn và ngăn các trang không mong muốn xuất hiện trong kết quả tìm kiếm.

Điều quan trọng cần lưu ý là chỉ vì bạn đã yêu cầu bot không thu thập dữ liệu trang, điều đó không có nghĩa là nó sẽ làm như vậy. không được lập chỉ mục. Nếu không muốn một trang hiển thị trong kết quả tìm kiếm, bạn cần thêm thẻ meta ngăn lập chỉ mục vào trang đó.

Chỉ thị tệp Robots.txt mẫu

Tệp robots.txt được tạo thành từ các khối dòng lệnh. Mỗi lệnh sẽ bắt đầu bằng một tác nhân người dùng và sau đó các quy tắc cho tác nhân người dùng đó sẽ được đặt bên dưới nó.

Khi một công cụ tìm kiếm cụ thể truy cập vào trang web của bạn, nó sẽ tìm tác nhân người dùng áp dụng cho chúng và đọc khối đề cập đến chúng.

Có một số chỉ thị bạn có thể sử dụng trong tệp của mình. Bây giờ chúng ta hãy chia nhỏ chúng ra.

1. Tác nhân người dùng

Lệnh tác nhân người dùng cho phép bạn nhắm mục tiêu một số bot hoặc trình thu thập dữ liệu nhất định để chỉ đạo. Ví dụ: nếu bạn chỉ muốn nhắm mục tiêu Bing hoặc Google, đây là lệnh bạn sẽ sử dụng.

Mặc dù có hàng trăm tác nhân người dùng nhưng dưới đây là ví dụ về một số tùy chọn tác nhân người dùng phổ biến nhất.

Tác nhân người dùng: Googlebot

Tác nhân người dùng: Googlebot-Image

Tác nhân người dùng: Googlebot-Mobile

Tác nhân người dùng: Googlebot-News

Tác nhân người dùng: Bingbot

Tác nhân người dùng: Baiduspider

Tác nhân người dùng: msnbot

Tác nhân người dùng: slurp (Yahoo)

Tác nhân người dùng: yandex

Điều quan trọng cần lưu ý — tác nhân người dùng phân biệt chữ hoa chữ thường, vì vậy hãy đảm bảo nhập chúng đúng cách.

Tác nhân người dùng ký tự đại diện

Tác nhân người dùng ký tự đại diện được đánh dấu bằng dấu hoa thị (*) và cho phép bạn dễ dàng áp dụng lệnh cho tất cả tác nhân người dùng tồn tại. Vì vậy, nếu bạn muốn áp dụng một quy tắc cụ thể cho mọi bot, bạn có thể sử dụng tác nhân người dùng này.

User-agent: *

Tác nhân người dùng sẽ chỉ tuân theo các quy tắc áp dụng chặt chẽ nhất cho họ.

2. Không cho phép

Lệnh không cho phép yêu cầu các công cụ tìm kiếm không thu thập dữ liệu hoặc truy cập các trang hoặc thư mục nhất định trên trang web.

Dưới đây là một số ví dụ về cách bạn có thể sử dụng lệnh không cho phép.

Chặn quyền truy cập vào một thư mục cụ thể

Trong ví dụ này, chúng tôi yêu cầu tất cả các bot không thu thập dữ liệu bất kỳ thứ gì trong thư mục /portfolio trên trang web của chúng tôi.

User-agent: *

Không cho phép: /portfolio

Nếu chúng ta chỉ muốn Bing không thu thập dữ liệu thư mục đó, thay vào đó, chúng ta sẽ thêm nó như thế này:

Tác nhân người dùng: Bingbot

Không cho phép: /portfolio

Chặn PDF hoặc các loại tệp khác

Nếu bạn không muốn tệp PDF hoặc các loại tệp khác của mình được thu thập thông tin thì lệnh dưới đây sẽ hữu ích. Chúng tôi đang thông báo với tất cả các bot rằng chúng tôi không muốn bất kỳ tệp PDF nào được thu thập thông tin. $ ở cuối cho công cụ tìm kiếm biết rằng đó là phần cuối của URL.

Vì vậy, nếu tôi có tệp pdf tại mywebsite.com/site/myimportantinfo.pdf, công cụ tìm kiếm sẽ không truy cập được nó.

User-agent: *

Không cho phép: *.pdf$

Đối với các tệp PowerPoint, bạn có thể sử dụng:

User-agent: *

Không cho phép: *.ppt$

Tùy chọn tốt hơn có thể là tạo một thư mục cho tệp PDF hoặc các tệp khác của bạn, sau đó không cho phép trình thu thập thông tin thu thập thông tin và noindex toàn bộ thư mục bằng một thẻ meta.

Chặn quyền truy cập vào toàn bộ trang web

Đặc biệt hữu ích nếu bạn có một trang web phát triển hoặc các thư mục thử nghiệm, lệnh này yêu cầu tất cả các bot không được thu thập dữ liệu trang web của bạn. Điều quan trọng cần nhớ là xóa tùy chọn này khi bạn đưa trang web của mình vào hoạt động, nếu không bạn sẽ gặp vấn đề về lập chỉ mục.

User-agent: *

Dấu * (dấu hoa thị) mà bạn thấy ở trên là biểu thức mà chúng tôi gọi là biểu thức “ký tự đại diện”. Khi chúng tôi sử dụng dấu hoa thị, chúng tôi ngụ ý rằng các quy tắc bên dưới sẽ áp dụng cho tất cả tác nhân người dùng.

3. Cho phép

Lệnh allow có thể giúp bạn chỉ định các trang hoặc thư mục nhất định mà bạn do muốn bot truy cập và thu thập dữ liệu. Đây có thể là quy tắc ghi đè đối với tùy chọn không cho phép, như đã thấy ở trên.

Trong ví dụ bên dưới, chúng tôi thông báo cho Googlebot rằng chúng tôi không muốn thu thập thông tin thư mục danh mục đầu tư nhưng chúng tôi muốn một mục danh mục đầu tư cụ thể được truy cập và thu thập thông tin:

Tác nhân người dùng: Googlebot

Không cho phép: /portfolio

Cho phép: /portfolio/crawlableportfolio

KHAI THÁC. Sơ đồ trang web

Việc bao gồm vị trí của sơ đồ trang web trong tệp của bạn có thể giúp trình thu thập thông tin của công cụ tìm kiếm thu thập dữ liệu sơ đồ trang web của bạn dễ dàng hơn.

Nếu bạn gửi sơ đồ trang web của mình trực tiếp tới công cụ quản trị trang web của mỗi công cụ tìm kiếm thì không cần thiết phải thêm sơ đồ trang web đó vào tệp robots.txt của bạn.

sơ đồ trang web: https://yourwebsite.com/sitemap.xml

5. Độ trễ thu thập thông tin

Độ trễ thu thập dữ liệu có thể khiến bot chậm lại khi thu thập dữ liệu trang web của bạn để máy chủ của bạn không bị quá tải. Ví dụ chỉ thị bên dưới yêu cầu Yandex đợi 10 giây sau mỗi hành động thu thập dữ liệu trên trang web.

Tác nhân người dùng: yandex

Độ trễ thu thập thông tin: 10

Đây là một chỉ thị bạn nên cẩn thận. Trên một trang web rất lớn, nó có thể giảm thiểu đáng kể số lượng URL được thu thập thông tin mỗi ngày, điều này sẽ phản tác dụng. Tuy nhiên, điều này có thể hữu ích trên các trang web nhỏ hơn, nơi các bot truy cập quá nhiều.

Lưu ý: Độ trễ thu thập thông tin là không được Google hoặc Baidu hỗ trợ. Nếu bạn muốn yêu cầu trình thu thập thông tin của họ làm chậm quá trình thu thập dữ liệu trang web của bạn, bạn sẽ cần phải làm điều đó thông qua các công cụ của họ.

Biểu thức chính quy và ký tự đại diện là gì?

So khớp mẫu là một cách nâng cao hơn để kiểm soát cách bot thu thập dữ liệu trang web của bạn bằng cách sử dụng các ký tự.

Có hai biểu thức phổ biến và được cả Bing và Google sử dụng. Những chỉ thị này có thể đặc biệt hữu ích trên các trang web thương mại điện tử.

Dấu hoa thị: * được coi là ký tự đại diện và có thể đại diện cho bất kỳ chuỗi ký tự nào

Ký hiệu đô la: $ được sử dụng để chỉ định phần cuối của URL

Một ví dụ điển hình về việc sử dụng ký tự đại diện * là trong trường hợp bạn muốn ngăn công cụ tìm kiếm thu thập dữ liệu các trang có thể có dấu chấm hỏi trong đó. Đoạn mã dưới đây yêu cầu tất cả các bot bỏ qua việc thu thập thông tin bất kỳ URL nào có dấu chấm hỏi trong đó.

User-agent: *

Không cho phép: /*?

Cách tạo hoặc chỉnh sửa tệp Robots.txt

Nếu chưa có tệp robots.txt trên máy chủ của mình, bạn có thể dễ dàng thêm tệp này bằng các bước bên dưới.

Mở trình soạn thảo văn bản ưa thích của bạn để bắt đầu một tài liệu mới. Các trình soạn thảo phổ biến có thể tồn tại trên máy tính của bạn là Notepad, TextEdit hoặc Microsoft Word.
Thêm các chỉ thị bạn muốn đưa vào tài liệu.
Lưu file với tên “robots.txt”
Kiểm tra tệp của bạn như được hiển thị trong phần tiếp theo
Tải tệp .txt của bạn lên máy chủ bằng FTP hoặc trong CPanel của bạn. Cách bạn tải nó lên sẽ phụ thuộc vào loại trang web bạn có.

Trong WordPress, bạn có thể sử dụng các plugin như Yoast, All In One SEO, Rank Math để tạo và chỉnh sửa tệp của mình.

Bạn cũng có thể sử dụng công cụ tạo robots.txt để giúp bạn chuẩn bị một tài liệu có thể giúp giảm thiểu sai sót.

Cách kiểm tra tệp Robots.txt

Trước khi đưa mã tệp robots.txt mà bạn đã tạo vào thực tế, bạn cần chạy mã đó thông qua trình kiểm tra để đảm bảo mã đó hợp lệ. Điều này sẽ giúp ngăn chặn các vấn đề với các chỉ thị không chính xác có thể đã được thêm vào.

Công cụ kiểm tra robots.txt chỉ khả dụng trên phiên bản cũ của Google Search Console. Nếu trang web của bạn không được kết nối với Google Search Console, trước tiên bạn cần phải thực hiện việc đó.

Truy cập vào Bộ phận hỗ trợ của Google sau đó nhấp vào nút “mở trình kiểm tra robots.txt”. Chọn thuộc tính bạn muốn kiểm tra và sau đó bạn sẽ được đưa đến màn hình, giống như màn hình bên dưới.

Để kiểm tra mã robots.txt mới của bạn, chỉ cần xóa nội dung hiện có trong hộp và thay thế bằng mã mới của bạn rồi nhấp vào “Kiểm tra”. Nếu phản hồi cho bài kiểm tra của bạn là "được phép", thì mã của bạn hợp lệ và bạn có thể sửa lại tệp thực tế bằng mã mới.

trình kiểm tra robots.txt trên Nhóm hỗ trợ Google

Hy vọng bài đăng này đã khiến bạn cảm thấy bớt sợ hãi hơn khi đào sâu vào tệp robots.txt của mình - bởi vì làm như vậy là một cách để cải thiện thứ hạng và tăng cường nỗ lực SEO của bạn.