Lập chỉ mục trang web: Tệp Robots.txt hướng dẫn chi tiết

Có nhiều người chưa thực sự hiểu về tác dụng của tệp robots.txt trên trang web. Điều này có thể gây ra một số những ảnh hưởng lớn trong việc lập chỉ mục.
Vì vậy bài viết này sẽ làm sáng tỏ mọi vấn đề xung quanh nó. Tác dụng của của tệp robots.txt và cách thêm nó vào trang web của bạn.
Nội dung bài viết
Tác dụng của tệp Robots.txt
Tệp Robots.txt giúp các tác nhân lập chỉ mục của Google xác định rằng chúng không nên lập hoặc nên lập chỉ mục nội dung nào trên trang web của bạn. Thông thường tệp robots.txt được sử dụng với mục đích chặn truy cập vào các tệp mà bạn không muốn google lập chỉ mục.
Chẳng hạn như trên trang web của mình, mình sử dụng tệp Robots.txt để thông báo cho Google không được phép lập chỉ mục các thẻ. Bởi lẽ các thẻ trên trang của mình có thể làm nhiễu nội dung hiển thị trên google tìm kiếm.
Vì vậy tệp Robots.txt trên trang web của mình như sau:
User-agent: *
Disallow: /tag/
Bạn cũng có thể kiểm tra nó ở đây: https://nhatphamblog.com/robots.txt
Vì thế nếu bạn không muốn Google lập chỉ mục các danh mục trên trang web của bạn, bạn có thể sửa thành:
User-agent: *
Disallow: /category/
Lưu ý rằng nếu bạn đổi tên đường dẫn danh mục trên trang web của bạn thành “danh-muc” hay “the-loai” bạn có thể sửa thành:
User-agent: *
Disallow: /danh-muc/
Cách thêm tệp Robots.txt vào trang web
Nếu trang web của bạn đã tồn tại tệp Robots.txt bạn sẽ không cần phải thêm nó. Để kiểm tra xem trang web của bạn đã tồn tệp Robots.txt hay chưa chỉ cần thêm /robots.txt vào sau đường dẫn trang web.
Ví dụ: https://nhatphamblog.com/robots.txt
Trong trường hợp trang web của bạn đã có tệp Robots.txt bạn có thể không cần phải động đến nó. Nếu bạn muốn sửa tệp Robots.txt bạn có thể sử dụng Plugin Yoast SEO sau đó truy cập vào phần Công cụ > Trình chỉnh sửa tập tin , chọn Robots.txt để sửa.

Bạn sẽ thấy tệp Robots.txt ngay ở đầu, bạn có thể sửa nó. Nhấn Lưu thay đổi vào robots.txt sau khi đã sửa hoàn tất

Trường hợp thứ hai nếu như bạn chưa thêm tệp Robots.txt bạn có thể làm như sau:
Truy cập vào trang nhà cung cấp Hosting của bạn sau đó nhấp vào Quản lí cPanel. Ở đây mình sử dụng dịch vụ Hosting tại Tinohost nên thao tác này vô cùng đơn giản. Chỉ cần vào phần Dịch vụ > Quản lí dịch vụ > Cloud Hosting > Đăng nhập vào cPanel.

Tiếp đến nhấp vào File Manager trong phần Files.

Vì vậy bây giờ để tạo tệp Robots.txt cho trang web, mình sẽ nhấp vào thư mục trang web > Public.html. Tại góc trái trên cùng nhấp vào +File

Đặt tên cho nó là robots.txt. Lưu ý rằng bạn cần đặt đúng tên như vậy nhé.

Nội dung tệp robots.txt cơ bản bao gồm 2 phần chính:
Mã tác nhân người dùng (User-agent): Sử dụng trong robots.txt để liên kết đến một trình thu thập dữ liệu. Bạn có thể sử dụng dấu * để cho phép tất cả các trình thu thập dữ liệu. Tìm hiểu về các trình thu thập dữ liệu phổ biến của google tại đây
Ví dụ về mã tác nhân người dùng: User-agent: * hoặc User-agent: Googlebot
Quy tắc thu thập dữ liệu: Có hai quy tắc là cho phép tác nhân người dùng truy cập hoặc không truy cập thư mục trên trang web. Tuy nhiên bạn chỉ cần thêm quy tặc loại bỏ những thư mục mà không muốn tác nhân người dùng truy cập. Chẳng hạn như nếu bạn không muốn Google lập chỉ mục các thẻ trên trang web của bạn, bạn có thể thêm quy tắc loại bỏ chúng.
Ví dụ về quy tắc không cho phép tác nhân người dùng truy cập các thẻ trên trang web: Disallow: /tag/
Như vậy bạn đã nắm rõ cách tạo tệp Robots.txt. Dưới đây là một mẫu nội dung Robots.txt mà bạn nên tham khảo
User-agent: *
Disallow: /tag/
Disallow: /wp-admin/
Sitemap: https://nhatphamblog.com/sitemap_index.xml
Tệp Robots.txt trên sẽ chặn các trình thu thập dữ liệu lập chỉ mục đến các nội dung có phần mở rộng /tag/ và /wp-admin/ trên trang web . Vì vậy chúng sẽ không xuất hiện trên Google tìm kiếm
Sau khi tạo được nội dung cho tệp Robots.txt hãy nhấn lưu File lại.

Để chắc chắn bạn đã thêm tệp Robots.txt thành công hãy kiểm tra bằng cách thêm /robots.txt vào đằng sau đường dẫn trang web của bạn.
Câu hỏi thường gặp về tệp Robots.txt
Có cần thiết phải thêm tệp Robots.txt cho trang web không?
Về cơ bản nó không cần thiết và không bắt buộc. Nếu bạn muốn chặn lập chỉ mục một số thư mục trên trang web như thẻ hoặc danh mục, bạn có thể sử dụng tệp Robots.txt
Không sử dụng tệp Robots.txt Google có lập chỉ mục trang web không?
Đảm bảo bạn đã thêm sơ đồ trang web trong Google Search Console. Google sẽ lập chỉ mục tất cả đường dẫn trên trang web của bạn cho dù bạn không thêm tệp Robots.txt
Sau khi cập nhật lại nội dung trong tệp Robots.txt tôi nên làm gì?
Bạn nên thông báo cho Google biết rằng tệp Robots.txt trên trang web của bạn đã thay đổi và cần được cập nhật. Nhấp vào đây để gửi lại tệp Robots.txt