logo-dich-vu-thiet-ke-website-gia-re-webcode24h
Dùng thử free

ĐĂNG KÝ LIÊN HỆ

Vui lòng cung cấp thông tin. Chúng tôi sẻ liên hệ lại bạn để hoàn tất đăng ký này

Safe and Secure

Fast Shipping

Order History

File robots.txt là gì ? Hướng dẫn cách tạo file robots.txt cho website

Khi bạn truy cập vào hosting lưu trữ trang web. Bạn thường thấy một file robots.txt ở hầu hiết các web site. File này không ảnh hưởng đến giao diện và cách trang web của bạn thể hiện trên môi trường internet nhưng nó lại vô cùng quan trọng. File robots.txt đóng vai trò như một hướng dẫn cho các con bot của google làm việc hiệu quả hơn. Nhờ nó mà google biết nên và không được phép truy cập những thông tin nào từ website

File robots.txt là gì?

robots.txt là một file văn bản thuần túy có đuôi mở rộng là “.txt”. File này chưa một số dòng cú pháp fhi lại thông tin giúp các Bot có thể đọc và hiểu quyền truy cập thông tin trên trang web.

Tệp tin này chứa thông tin cho hép hoặc ngăn trình thu thập dữ liệu request trang web của bạn. Nhưng nó không phải là cơ chế để ẩn một trang web khỏi Google. Để ẩn một trang web khỏi Google, bạn nên sử dụng lệnh noindex (ngăn lập chỉ mục) với thẻ meta robots hoặc bảo vệ trang của bạn bằng mật khẩu cho một trang web.

Tạo một file robots.txt nhanh:

Tạo một tập tin văn bản mới với loại tệp ”txt”, mở nội dung để chỉnh sửa như sau:

User-agent: [user-agent name]

Disallow: [URL string not to be crawled]

2 dòng này được coi là một tệp robots.txt hoàn chỉnh – mặc dù một tệp robots có thể chứa nhiều dòng User-agent và chỉ thị của người dùng (nghĩa là Disallow(không cho phép), Allown(cho phép), thu thập dữ liệu trễ, v.v.).

Trong file robots.txt, có thể có nhiều bộ chỉ thị User-agent (Bot) xuất hiện từng bộ riêng biệt, được phân tách bằng dấu ngắt dòng. Các bộ này đại diện cho các Bot tìm kiếm của các công cụ tìm kiếm khác nhau nhiw Bing, google, yandex,…



Msnbot, Discobot và Slurp đều được gọi cụ thể, vì vậy lệnh thực hiện tương ứng cho các bot đó. Còn lại tất cả các User-agent khác sẽ tuân theo các chỉ thị trong nhóm User-agent: *.

Mô ta các dòng lệnh trên:

  • Đối với lệnh Crawl-delay: msnbot trang web buzzfeed.com muốn thông báo cho msnbot dừng chờ 120 mili giây sau mỗi lần crawl 1 trang, và không được thu thập các chuỗi URL được liệt kê theo cú pháp.
  • Đối với lệnh user-agents:* Tất cả các user-agents (trừ msnbot, Discobot, Slurp) không được thu thập các URL có cú pháp được liệt kê

Tương tự, Discobot sẽ không đươc phép thu thập bất kỳ URL nào của buzzfeed và Slurp(user-agent của yahoo) sẽ phải chờ 4 mili giây sau mỗi lần thu thập trang, được thu thập tất cả các URL của Buzzfeed.com

Nội dung bài viết "File robots.txt là gì ? Hướng dẫn cách tạo file robots.txt cho website". Bài viết sẽ được chúng tôi thường xuyên cập nhật và sẽ hiển thị trong 24 giờ tới. Webcode24h luôn cập nhật các bài viết của mình để nó trở nên hữu ích với bạn đọc.

Cảm ơn bạn đã đọc hết bài viết, bạn cũng có thể truy cập danh mục "Quản trị Website, Kiến thức về website, Lập trình Web" dưới để xem các bài viết khác cùng chủ đề trên website của chúng tôi nhé.

Vui lòng để link nguồn bài viết này nếu bạn copy nội dung này

☞ Tài nguyên free

Pass: 'webcode24h.com' nếu có