File robots.txt là file vô cùng quan trọng đối với việc SEO website của bạn. Ngoài ra nó cũng có thể ảnh hưởng đến chất lượng hiển thị của chính website đó. Vì vậy, tối ưu file robots.txt là điều vô cùng quan trọng mà bạn cần làm. Sau đây Digi-4U sẽ hướng dẫn 3 cách tạo file robots.txt cho WordPress hiệu quả nhất năm 2023 sắp tới. Tham khảo ngay nhé!
NỘI DUNG CHÍNH
File robots.txt là gì?
Nếu bạn đã nghe qua cái tên Robots Exclusion Standard thì sẽ biết chúng được phát triển để giúp các webmaster có thể hỗ trợ các công cụ tìm kiếm cách thu thập thông tin từ website của họ. Nó hoạt động giống như các robot meta tag. Tuy nhiên, đối với các file robots.txt thì chúng lại có nhiệm vụ ngăn cản việc công cụ tìm kiếm truy cập vào một trang hoặc thư mục.
Khi ấy, một file robots.txt trong thư mục gốc của tên miền sẽ chặn ngay các công cụ tìm kiếm lập chỉ mục các tập tin và thư mục nhạy cảm. Đối với các công cụ tìm kiếm lớn thì chúng sẽ thực hiện theo các quy tắc mà bạn thiết lập. Thế nhưng, không phải lúc nào các quy tắc ấy cũng được thi hành.
Đôi khi, trình thu thập dữ liệu của các phần mềm độc hại và các công cụ tìm kiếm nhỏ sẽ không tuân thủ các quy tắc và index. Hiện nay, một số công cụ tìm kiếm lớn đang hoạt động theo các tiêu chuẩn này, bao gồm: Google, Bing, Yandex, Ask và Baidu. Nếu bạn muốn biết cách tạo file robots.txt cho wordpress thì hãy theo dõi tiếp bài viết nhé.
Cú pháp của file robots txt
Các cú pháp được biết đến là ngôn ngữ riêng của các tập tin robots txt. Hiện nay, có 5 thuật ngữ phổ biến trong một file robots txt mà bạn dễ dàng bắt gặp. Đó chính là:
- User-agent: Đây là tên của các trình thu thập, cho phép truy cập dữ liệu web như Googlebot, Bingbot.
- Disallow: Nó có nhiệm vụ thông báo cho các User-agent không thu thập bất kỳ dữ liệu URL cụ thể nào. 1 dòng Disallow sẽ tương ứng với 1 URL chỉ được sử dụng.
- Allow: Đây là lệnh có nhiệm vụ thông báo cho Googlebot rằng nó sẽ truy cập một thư mục con hoặc một trang. Tuy nhiên, nó chỉ áp dụng cho bọ tìm kiếm Googlebot.
- Crawl-delay: Nó thông báo cho các Web Crawler rằng nó phải đợi bao nhiêu thời gian (cụ thể là giây) trước khi tải và thu thập nội dung của trang. Tuy nhiên, Googlebot lại không thừa nhận lệnh này. Vậy nên, bạn cần cài đặt tốc độ thu thập dữ liệu trong Google Search Console.
- Sitemap: Chúng được sử dụng để cung cấp vị trí của bất kì Sitemap XML nào đã liên kết với URL này. Thế nhưng, lệnh này cũng chỉ được hỗ trợ bởi Google, Ask, Bing và Yahoo.
File robots.txt WordPress nằm ở đâu?
file robots.txt sẽ tự động tạo ra khi bạn tạo website WordPress. Nó được đặt ngay bên dưới thư mục gốc của server. Chẳng hạn, nếu site của bạn được đặt trong thư mục gốc của địa chỉ yourfakewebsite.com thì bạn có thể truy cập file robots.txt ở đường dẫn yourfakewebsite.com/robots.txt. Kết quả hiện ra sẽ như sau:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Ở đây, sau User-agent: Dấu * có nghĩa là quy tắc được áp dụng cho mọi loại bots trên khắp nơi của website. Với ví dụ này, file này sẽ nói cho bots biết là chúng không được phép vào trong file thư mục wp-includes và wp-admin.
Tuy nhiên bạn cần nhớ rằng, đây là một file ảo do WordPress thiết lập mặc định và không chỉnh sửa được. Thông thường, vị trí file robots.txt WordPress chuẩn sẽ được đặt trong thư mục gốc với tên gọi là public_html và www (hoặc tên website). Và để tạo file robots.txt cho riêng mình thì bạn phải tạo một file mới để thay thế file cũ được đặt trong thư mục gốc đó. Theo dõi tiếp bài viết để biết cách tạo file robots.txt cho wordpress.
Quy tắc nào cần thêm vào trong file robots.txt WordPress?
Dưới đây sẽ là một ví dụ cho file WordPress robots.txt:
User-agent: *
Allow: /
# Disallow Sub-Directories
Disallow: /checkout/
Disallow: /images/
Disallow: /forum
Đây là file robots.txt chuẩn dành cho website với một diễn đàn. Tùy vào loại forum, thông thường bạn nên disallow it nghĩa là không cho phép quét. Bằng cách này, Googles sẽ không phải index nhiều threads mà người dùng tạo ra hằng ngày. Ở đây, bạn có thể cài đặt rules để xác định loại sub-forum nào không cần thiết và để search engines quét phần còn lại.
Ngoài ra, bạn sẽ thấy có dòng Allow: / nằm trên cùng của file. Dòng này cho biết là chúng có thể quét tất cả những trang trên website, trừ các trang bên dưới phần Disallow:.
Sau đây sẽ là ví dụ bạn nên sử dụng để tạo file robots.txt chuẩn cho WordPress:
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Tại đây, bạn sẽ để mặc định WordPress sẽ chặn thư mục wp-includes và wp-admin. Thế nhưng, điều này lại không còn được xem là tốt nữa. Bên cạnh đó, nếu bạn thêm metadata vào ảnh để tăng tối ưu SEO thì đừng nên chặn bot truy cập vào các thông tin đó. Thay vào đó, 2 rules trên lại là những gì cơ bản nhất mà một site bình thường cần có.
Ở đây, tùy thuộc vào loại nội dung và nhu cầu của bạn mà bạn sẽ cần thêm gì trong file robots.txt.
Tại sao cần tạo file robots.txt?
Trước khi đi đến cách tạo file robots.txt cho wordpress, bạn cần biết lý do tại sao cần tạo ra file này. Việc tạo ra một file robots.txt sẽ giúp cho website kiểm soát việc truy cập của các con Bots đến các khu vực nhất định trên trang web. Vì thế, nó được đánh giá là mang đến nhiều lợi ích bởi vì:
- Ngăn chặn nhanh chóng các nội dung trùng lặp xuất hiện trong website .
- Giữ lại một số phần của trang và đặt ở chế độ riêng tư.
- Giữ lại các trang kết quả tìm kiếm nội bộ không hiển thị trên SERP.
- Chỉ định vị trí Sitemap.
- Ngăn chặn các công cụ của Google Index và một số tệp nhất định trên trang web của bạn như hình ảnh từ máy tính, file PDF,…
- Dùng lệnh Crawl-delay để cài đặt thời gian và ngăn chặn máy chủ của bạn bị quá tải khi các trình thu thập dữ liệu tải về nhiều nội dung cùng một lúc.
Hướng dẫn 3 cách tạo file robots.txt cho WordPress đơn giản nhất
Với những lợi ích mà file robots.txt, không có lý do gì bạn lại từ chối chúng. Sau đây là những cách tạo file robots.txt đơn giản nhất mà bạn cần biết.
Sử dụng plugin All in One SEO Pack
Đầu tiên, bạn cần setup plugin này. Sau đó hãy chuyển tới mục All in One SEO > Feature Manager trong dashboard. Tiếp theo, bạn hãy tìm tùy chọn Robots.txt, và Click vào nút nút Activate. Ở đây, bạn sẽ thấy tab mới Robots.txt hiện bên dưới menu All in One SEO. Click vào đây để thấy nhiều lựa chọn như thêm rules mới cho file, lưu thay đổi hoặc xóa. Để thêm rules mới không hề khó. Chỉ cần bạn vào tab All in One SEO Pack sẽ thấy có đính kèm nhiều tính năng để giúp bạn chặn bots độc hại.
Sử dụng Yoast SEO
Yoast SEO Nó hướng dẫn người dùng tối ưu bài viết và từng trang web. Qua đó giúp cho bài viết giữ chân người đọc được lâu hơn. Và để tạo file robots.txt bằng cách sử dụng Yoast SEO, bạn cần thực hiện các thao tác sau:
Sau khi bạn cài đặt plugin này, bạn hãy chuyển tới tab SEO -> Tools trong dashboard và tìm tới mục gọi là File editor
Click vào link để tới trang mới. Tại đây, người dùng có thể chỉnh sửa file htaccess mà không cần thoát dashboard. Lúc này, có một nút Create robots.txt file giúp bạn tạo ra file robots.txt:
Click vào nút này để tab hiển thị editor mới để chỉnh sửa file robots.txt trực tiếp. Lưu ý rằng Yoast SEO sẽ đặt giá trị mặc định để ghi đè lên file ảo robots.txt. Và mỗi khi bạn thêm mới hoặc xóa rules cũ thì phải nhớ click nút Save changes to robots.txt để lưu.
Tạo rồi upload file robots.txt của WordPress qua FTP
Cách tạo file robots.txt cho wordpress thứ 3 là upload file robots.txt của WordPress qua FTP. Ở đây, bạn cần kết nối tới website qua FTP. Sau khi đã kết nối thành công, bạn cần chuyển vào thư mục public_html. Tại đây, bạn hãy upload file robots.txt từ máy tính sang đến server. Ngoài ra, bạn cũng có thể làm vậy bằng cách click chuột phải vào file và chọn upload.
Thông thường chỉ mất 1 giây để có thể upload hoàn tất vì file này vì nó rất nhẹ. Phương pháp này giúp bạn upload robots.txt wordpress mà không phải thông qua plugin nào.
Kiểm tra file robots.txt và gửi lên trên Google Console
Search Console có tác dụng kiểm tra nội dung website xem nó hiển thị như thế nào với trình tìm kiếm. Sau đây là các bước kiểm tra file robots.txt và gửi lên Google Console:
- Đăng nhập vào Search Console
- Tìm kiếm và chọn mục “Sơ đồ trang web“
- Tìm mục“Sơ đồ trang web mới”, sau đó chèn URL của sitemap vào
- Bấm “Gửi“
- Cuối cùng, bạn đợi Google kiểm tra và thông báo kết quả.
Làm thế nào để kiểm tra website có file robots.txt hay không?
Để tìm hiểu xem website có file robots.txt không rất đơn giản. Bạn hãy thực hiện theo trình tự các bước như sau:
Nhập Root Domain (ví dụ: cfgld.com) > Chèn /robots.txt vào cuối (ví dụ: cfgld.com/robots.txt) > Nhấn Enter.
Một số hạn chế của tệp robots.txt bạn cần biết
Trong quá trình hoạt động của tệp robots txt, bạn sẽ thấy xuất hiện một vài những hạn chế. Đó là:
- Một vài công cụ tìm kiếm có thể không hỗ trợ được các lệnh trong tệp robots txt
- Mỗi một trình thu thập dữ liệu sẽ có những cách phân tích cú pháp riêng.
- Một trang bị tệp robots txt chặn nếu có trang web khác liên kết đến trang đó thì vẫn có thể được lập chỉ mục.
Một số lưu ý khi sử dụng file robots.txt bạn nên biết
Trên đây là cách tạo file robots.txt cho wordpress. Tuy nhiên, để sử dụng file robots.txt hiệu quả, an toàn nhất thì người dùng cần lưu ý những vấn đề sau:
- Các liên kết trên trang khi bị chặn bởi robots.txt sẽ không được các bots theo dõi (trừ khi các link này có liên kết với các trang khác).
- Link juice sẽ không được truyền tải từ các trang bị chặn đến trang đích.
- Không nên sử dụng file robots.txt để ngăn dữ liệu nhạy cảm bởi vì trang web chứa thông tin cá nhân này có thể liên kết với nhiều trang web khác.
- Nếu muốn chặn trang web khỏi các kết quả tìm kiếm thì bạn nên sử dụng một phương pháp khác thay vì tạo file robots.txt.
- Thường 99% các User-agent từ cùng một công cụ đều tuân theo một quy tắc. Vì vậy, bạn không cần chỉ định các lệnh cho từng User-agent.
- Các công cụ tìm kiếm sẽ có nhiệm vụ lưu trữ nội dung file robots.txt WordPress nhưng nó vẫn thường xuyên cập nhật nội dung trong bộ nhớ cache ít nhất một lần.
Câu hỏi thường gặp về robots.txt
Kích thước tối đa của file robots.txt là?
>>> Khoảng 500 kilobyte.
File robots.txt WordPress nằm ở đâu trên website của bạn?
>>> Vị trí domain.com/robots.txt.
Để chỉnh sửa robots.txt WordPress thì cần làm cách nào?
>>> Bạn có thể thực hiện thủ công hoặc sử dụng plugin
Nếu muốn ngừng toàn bộ hoạt động thu thập dữ liệu website thì phải làm sao?
>>> Bạn hãy trả về một mã kết quả HTTP 503 cho mọi URL, bao gồm cả tệp robots.txt.
Kết luận
Trên đây là toàn bộ những chia sẻ về file robots.txt cũng như cách tạo file robots.txt cho wordpress hiệu quả nhất. Chúc các bạn thành công với những cách thực hiện trên. Mọi khó khăn, thắc mắc cần hỗ trợ, vui lòng liên hệ ngay với chúng tôi để được giải đáp chi tiết.