
Chỉ mất khoảng 4 phút để nắm hết nội dung!

Robots.txt là nơi để người quản trị website hướng dẫn các bot công cụ tìm kiếm cách thu thập trang web của bạn. Thực tế thì nó được thực hiện như thế nào? Cấu hình ra sao, các thành phần trong đó có ý nghĩa gì cùng TNDigi tìm hiểu nhé.
File robots.txt là gì?
Robots.txt là một file cho phép các user-agent của BOT thu thập các tài nguyên của website. Tệp này có thể dùng để ngăn chặn các request đến trang quá nhiều. Trên thực tế thì nó dùng để nhà quản trị web chủ động hơn trong việc cho phép các bot crawl hay không crawl thành phần nào đó trong trang.
Cú pháp có trong một file Robots.txt:
- User-agent: tên trình thu phập, ví dụ như Googlebot, Bingbot,…
- Disallow: Thông báo không được thu thập dữ liệu
- Allow: Thông báo cho phép thu thập dữ liệu
- Crawl-delay: Thông báo cho các bot phải đợi bao lâu trước khi thu thập thông tin
- Sitemap: Dùng để cung cấp các vị trí bất kì của sitemap liên kết với URL này.
Các thành phần matching:
- *: là ký tự đại diện cho bất kì chuỗi nào, nghĩa là cho phép tất cả
- $: có nghĩa là khớp với phần cuối của URL

Tại sao cần dùng Robots.txt
File này được tạo ra nhằm kiểm soát việc truy cập đến các thành phần của các Bots. Nó sẽ thật sự hữu ích bởi một vài lợi ích như bên dưới, nhưng sẽ thật tai hại nếu như bạn làm sai hoặc chặn nhầm bất kì điều gì mà bạn không muốn.
- Chặn nội dung trùng lặp
- Giữ một số thành phần ở chế độ riêng tư
- Giữ các trang nội bộ không xuất hiện trên kết quả tìm kiếm
- Chỉ định vị trí của sitemap
- Ngăn không cho index một số tệp nhất định
- Giảm thiểu máy chủ bị quá tải nếu như phải thu thập quá nhiều thông tin cùng lúc.
Những hạn chế của Robots.txt
- Một số trình duyệt không hỗ trợ
- Mỗi trình dữ liệu có cú pháp phân tích riêng
- Chặn ở tệp robots.txt nhưng vẫn có thể được index
Một số lưu ý khi sử dụng robots.txt:
- Chỉ định User-agent là không cần thiết vì các công cụ tìm kiếm đều tuân thủ theo quy tắc chung
- Không nên dùng tệp này để chặn các dữ liệu riêng tư vì google bot vẫn có thể index được
- Bạn nên dùng mật khẩu riêng để truy cập các URL trên trang.
Robots.txt nằm ở đâu trên trang web?

File này nằm ở thư mục gốc ở trên trang, tương tự như trang có cài google ads thì nó nằm cùng cấp, bạn có thể truy cập file này thông qua domain/robots.txt.
Nếu như bạn chưa có file này thì hãy tạo thông qua FPT nhé, điều này sẽ giảm thiểu việc cài plugin gây nặng site. Nhưng nếu như bạn có dùng plugin cho tối ưu SEO thì nó sẽ tự tạo và đây là một số cách để bạn chủ động hơn trong file này
Nếu bạn dùng Yoast SEO
Bạn vào SEO -> Công cụ -> Trình chỉnh sửa tập tin


Nếu bạn dùng Rank math

Nếu bạn tạo trực tiếp trên cPanel
Nếu bạn tạo trực tiếp trên cPanel thì nó sẽ ở thư mục gốc

Bạn đã hiểu Robots.txt dùng để làm gì rồi phải không? Ở lần cập nhật bài viết tới mình sẽ hướng dẫn chi tiết cách cấu hình cho từng nhu cầu nhé. Nếu như bạn cần trao đổi thông tin gì đừng ngại để lại bình luận ở phía bên dưới nhé.
Bạn đang xem bài viết: File Robots.txt là gì? Vì sao phải sử dụng Robots.txt khi SEO trang web
Tham khảo dịch vụ tại TNDiGi: Dịch vụ thiết kế website wordpress, Dịch vụ SEO tốt nhất TPHCM, Quản trị web , Dịch vụ tư vấn Marketing, Viết bài PR quán cafe.
Bạn đã nhớ hết nội dung bài viết file robots.txt chưa? Có điểm nào bạn chưa hiểu?
Bạn thấy nội dung nào chưa hợp ý, hãy góp ý để cùng TNDiGi phát triển bài viết hơn nữa nhé!
Để đạt được sự thành công không phải vận may từ trên trời rơi xuống, cũng không phải tự nhiên có mà cần phải bắt đầu từ những điều nhỏ nhặt nhất trong công việc và cuộc sống.
Hãy luôn cố gắng để tốt hơn ngày hôm qua nhé, chúc bạn thành công!
25 Tháng Mười, 2022
Chúc bạn có một ngày gặt hái được nhiều thành công. Trân trọng.