File Robots.txt là gì?

Robots.txt là một tệp thông báo cho các công cụ tìm kiếm không thu thập dữ liệu các trang trên Web hoặc một vài phần bạn không muốn Google lập chỉ mục. Hầu hết các công cụ tìm kiếm lớn (bao gồm Google, Bing và Yahoo) đều tuân thủ các yêu cầu của file Robots.txt mà người dùng khai báo.

Optimize-Robots-txt-for-SEO

Tại sao file Robots.txt lại quan trọng?

Mình phát hiện có rất nhiều trang Web không có file robots.
Google có thể tự nhận biết và chỉ lập chỉ mục những trang quan trọng trên Website của bạn.
Nhưng chúng ta vẫn có 3 lý do để sử dụng tệp robot.txt này.
1/ Chặn các trang không công khai: Đôi khi bạn có các trang trên trang web của mình mà bạn không muốn lập chỉ mục. Ví dụ: bạn có thể có một trang đăng nhập. Những trang này cần tồn tại trong website. Nhưng bạn không muốn những người khác tìm thấy nó trên Google. Đây là lúc bạn sử dụng robot.txt để chặn các trang này khỏi trình thu thập thông tin và bot của công cụ tìm kiếm.
2/ Tối đa hóa thời gian thu thập dữ liệu: Bằng cách chặn các trang không quan trọng trong file robot.txt, Googlebot có thể thu thập dữ liệu của bạn nhiều hơn và nhanh chóng hơn.
Bạn có thể kiểm tra số lượng trang của bạn đã được Google lập chỉ mục tại Google Search Console .

lap-chi-muc-google

Cách tạo file Robotx.txt chuẩn

File robots.txt Là một tệp văn bản, bạn có thể tạo một tệp bằng Windows notepad.
Tất cả các tệp robots.txt đều có định dạng giống nhau:
User-agent: X
Disallow: Y
X: là bot cụ thể mà bạn cho phép thu thập dữ liệu website của mình.
Y: là các trang hoặc phần mà bạn muốn chặn.
Ví dụ:
User-agent: googlebot
Disallow: /images
Cú pháp trên sẽ yêu cầu Googlebot không lập chỉ mục thư mục hình ảnh của trang web của bạn.
Bạn cũng có thể sử dụng dấu hoa thị (*) để cho phép tất cả công cụ tìm kiếm lập chỉ mục Website của bạn.
Ví dụ:
User-agent: *
Disallow: /wp-admin
Đây chỉ là một trong nhiều cách để sử dụng file robot.txt. Bạn có thể xem hướng dẫn của google về việc sử dụng tệp robots.txt. Để hiểu thêm về các quy tắc khác nhau mà bạn có thể sử dụng để chặn hoặc cho phép các bot thu thập dữ liệu các trang khác nhau trên trang web của bạn.
tep-robots
Khi bạn đã khởi tạo xong tệp robots.txt bạn nên khai báo nó với Google.
Về mặt kỹ thuật, bạn có thể đặt tệp robot.txt trong bất kỳ thư mục chính nào trên trang web của mình.
Nhưng để Google dễ đọc tệp này bạn nên để nó ở thư mục gốc của Website tức là : https://domain.com/robots.txt
(Lưu ý rằng tệp robots.txt của bạn phân biệt chữ hoa chữ thường. Vì vậy, hãy đảm bảo sử dụng chữ viết thường trong tệp)
Kiểm tra lỗi
Sau khi bạn đã có tệp robots.txt bạn phải kiếm tra xem liệu mình đã tạo chính xác hay chưa. Chỉ cần một sai lầm nhỏ thì toàn bộ trang web có thể bị biến mất khỏi Google.
May mắn thay, Bạn không cần phải lo sợ là tệp của mình đúng hay chưa. Google có một Công cụ kiểm tra robot tiện lợi mà bạn có thể sử dụng:
kiem-tra-tep-robots
Nhìn vào ảnh bạn có thể thấy tôi chặn các con bọ thu thập dữ liệu của trang quản trị WordPress của tôi.
Chúng ta có thể chặn các trang bằng thẻ noindex vậy tại sao chúng ta nên sử dụng tệp robots.txt.
Vì thẻ noindex rất khó thực hiện nếu bạn không thực sự rành về các kỹ thuật code.
Ngoài ra, nếu bạn có hàng ngàn trang bạn muốn chặn, thì việc thực hiện bằng thẻ noindex sẽ mất rất nhiều thời gian.
Tìm hiểu thêm:

  • SEO là gì ? tại sao SEO lại quan trọng đối với sự phát triển của doanh nghiệp trên internet
  • Cấu trúc trang Web là gì ? Sự ảnh hướng của cấu trúc web đến sự thành công của dự án SEO.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *