Follow me on Google News Follow
  Views

File Robots.txt là gì? Hướng dẫn tạo file robots.txt cho Website

File robots.txt giúp cho các công cụ tìm kiếm thu thập dữ liệu trên Website của bạn. Trong bài viết này iTechrum sẽ chia sẻ một số kiến thức về file robots.txt và hướng dẫn tạo file robots.txt cho Website.

File robots.txt là gì?

File robots.txt là một tập tin văn bản đơn giản có dạng đuôi mở rộng txt. Tệp này là một phần của Robots Exclusion Protocol (REP) chứa một nhóm các tiêu chuẩn Web quy định cách Robot Web (hoặc Robot của các công cụ tìm kiếm) thu thập dữ liệu trên web, truy cập, index nội dung và cung cấp nội dung đó cho người dùng.

Cú pháp của file robots.txt

Trong tập tin robots.txt có các cú pháp chính bao gồm như sau:

  • User-agent: Phần này là tên của các Bot tìm kiếm. (Ví dụ: Googlebot, Bingbot,...).
  • Disallow: Được sử dụng để thông báo cho các User-agent không thu thập bất kì dữ liệu URL cụ thể nào. Mỗi URL chỉ được sử dụng 1 dòng Disallow.
  • Allow: (chỉ áp dụng cho bộ tìm kiếm Googlebot): Lệnh thực hiện thông báo cho Googlebot rằng nó sẽ truy cập một trang hoặc thư mục con. Mặc dù các trang hoặc các thư mục con của nó có thể không được phép.
  • Sitemap: Được sử dụng để cung cấp các vị trí của bất kì Sitemap XML nào được liên kết với URL này. Lưu ý lệnh này chỉ được hỗ trợ bởi công cụ Google, Ask, Bing và Yahoo.

Vì sao Website cần tạo file robots.txt?

Như mình đã nói ở trên việc tạo file robots.txt cho web giúp bạn kiểm soát việc truy cập của các con Bots đến các khu vực nhất định trên trang web. Điều này mang đến nhiều lợi ích cho bạn bởi nhiều lí do:

  • Ngăn chặn nội dung trùng lặp xuất hiện trong website.
  • Giữ một số phần của trang ở chế độ riêng tư.
  • Giữ các trang kết quả tìm kiếm nội bộ không hiển thị trên SERP.
  • Chỉ định vị trí của Sitemap.
  • Ngăn các công cụ của Google Index một số tệp nhất định trên trang web của bạn (hình ảnh từ máy tính, PDF,...).
  • Dùng lệnh Crawl-delay để cài đặt thời gian, ngăn việc máy chủ của bạn bị quá tải khi các trình thu thập dữ liệu tải nhiều nội dung cùng một lúc.

Những nhược điểm của file robots.txt

Chúng ta biết File robots.txt mang nhiều ưu điểm như ở trên mình trình bày nhưng vẫn tồn tại một số nhược điểm nhất định:

  • Một số công cụ tìm kiếm có thể không hỗ trợ các lệnh trong tệp robots.txt.
  • Mỗi trình thu thập dữ liệu sẽ phân tích cú pháp theo những cách riêng.
  • Google vẫn có thể lập chỉ mục một trang bị tệp robots.txt chặn nếu có các trang web khác liên kết đến trang đó.

Cách tạo file robots.txt WordPress

Trên thực tế, tạo robots.txt WordPress giúp các nhà quản trị web linh hoạt, chủ động hơn trong việc cho phép hay không cho các con bot của công cụ tìm kiếm index một số phần nào đó trên web của bạn.

Nếu sau khi kiểm tra, bạn nhận thấy website của mình không có tệp robots.txt hay đơn giản là bạn đang muốn thay đổi tệp robots.txt của mình. Dưới đây là các cách tạo robots.txt cho WordPress:

Cách 1: Sử dụng Yoast SEO

Bước 1: Đăng nhập vào website của bạn trên WordPress, khi đăng nhập vào sẽ thấy giao diện của trang WordPress Dashboard.

Bước 2: Chọn mục SEO ➔ Chọn Tools.
Bước 3: Chọn File editor.

Tại đây, bạn sẽ thấy mục robots.txt và .htaccess file. Đây là nơi giúp bạn tạo file robots.txt.

Cách 2: Qua bộ Plugin All in One SEO

Bạn có thể sử dụng bộ Plugin All in One SEO để tạo file robots.txt WordPress nhanh chóng. Đây cũng là một plugin tiện ích cho WordPress đơn giản, dễ sử dụng.

Để tạo file robots.txt WordPress, bạn có thể thực hiện theo các bước sau:

Bước 1: Truy cập giao diện chính của Plugin All in One SEO Pack.

Nếu chưa có bộ Plugin, bạn VÀO ĐÂY để tải về.

Bước 2: Tại giao diện chính bạn chọn All in One SEO ➔ Chọn Feature Manager ➔ Nhấp Activate cho mục Robots.txt.
Bước 3: Tạo lập và điều chỉnh file robots.txt WordPress.

Cách 3: Tạo rồi upload file robots.txt qua FTP

Nếu bạn không muốn sử dụng plugin để tạo file robots.txt WordPress thì bạn có thể tự tạo file robots.txt thủ công cho WordPress của mình.

Để tạo file robots.txt WordPress bằng tay bằng phương pháp tạo rồi upload file robots.txt qua FTP, bạn có thể thực hiện theo các bước sau đây:

Bước 1: Mở công cụ Notepad hoặc Textedit để tạo mẫu file robots.txt WordPress.

Bước 2: Mở FTP ➔ Chọn thư mục public_html ➔ Chọn file robots.txt > Chọn Upload.

Cách tạo file robots.txt cho Blogspot

Các bạn vào Cài đặtRobots.txt tùy chỉnh, Bạn coppy đoạn bên dưới vào.


User-agent: Mediapartners-Google
Disallow:
User-agent: *
Allow: /search
Disallow: /search*
Allow: /
Allow: *max-results=8
Allow: /search/label/
Disallow: *?m=0
Sitemap: https://www.itechrum.com/posts/default?orderby=UPDATED
Sitemap: https://www.itechrum.com/sitemap.xml
Sitemap: https://www.itechrum.com/atom.xml?redirect=false&start-index=1&max-results=500

Trong đó:

  • User-agent: Mediapartners-Google
  • Disallow: / ➔ Mình chặn index các trang đối tác của Google (Google Adsense)
  • User-agent: * ➔ Khai báo cho tất cả bộ máy tìm kiếm (SE)
  • Allow: / ➔ Tức là cho phép bot có thể index nội dung trên trang web.
  • Disallow: /search* ➔ Chặn trang tìm kiếm
  • Allow: /search ➔ Cho phép đọc trang bài viết mới
  • Disallow: *?m=0 ➔ chặn index trang có giá trị domain.com?m=0
  • Allow: /search/label/ ➔ Cho phép index trang nhãn
  • Disallow: *?m=0 ➔ Blogspot có 2 giao diện, 1 là cho máy tính và còn lại là cho điện thoại. Thông thường các template đều thiết kế sử dụng responsive, nên sẽ sinh ra đường link ?m=1, còn máy tính vẫn sinh ra đường link ?m=0 dù bạn truy cập trên máy tính sẽ không thấy, nhưng tham số ?m=0 vẫn tồn tại, và được Google index, vì vậy, để trang trùng lặp mô tả, tiêu đề, bạn cần chặn tham số ?m=0.
  • Sitemap: là sơ đồ trang của web, bạn thây đúng địa chỉ URL nhé.
Bạn không thích dòng nào thì có thể xóa bỏ.

Cách tối ưu cho thẻ tiêu đề robot tùy chỉnh

Bạn vào Cài đặtBật thẻ tiêu đề robot tùy chỉnh ➔ Chọn allnoodp ➔ Nhấn Lưu. Như hình bên dưới.

Trong đó:

  • all: Cho phép công cụ tìm kiếm lập chỉ mục.
  • noindex: Không hiển thị trang này trong kết quả tìm kiếm.
  • nofollow: Thông báo cho công cụ tìm kiếm không nên lần theo các liên kết này.
  • none: Tương tự như nonidex và nofollow.
  • noarchive: Không hiển thị một liên kết "Cached" trong kết quả tìm kiếm.
  • nosnippet: Không hiển thị một đoạn mã trong kết quả tìm kiếm cho trang này.v
  • noodp: Không sử dụng dữ liệu từ các dự án Open Directory (DMOZ) cho tiêu đề hoặc đoạn hiển thị cho trang này.
  • notranslate: Không cung cấp bản dịch của trang này với các ngôn ngữ khác trong kết quả tìm kiếm.
  • noimageindex: Không lập chỉ mục cho hình ảnh trên trang này.
  • unavailable_after: Không hiển thị trang này trong kết quả tìm kiếm sau khi ngày/thời gian quy định. Ngày/thời phải được xác định trong các định dạng RCF 850.

Kết luận:

Ở trên mình đã chia sẻ tới các bạn cách tạo và cài đặt một file Robots chuẩn cho website WordPress và Blogger. Có gì thắc mắc các bạn hãy để lại bình luận phía dưới. Chúc các bạn thành công!

Thành Đạt – Tổng hợp và edit
Bài viết được bảo vệ bởi DMCA. DMCA.com Protection Status

About the Author

Học để làm - Học để chia sẻ

Đăng nhận xét

  • Home
Cookie Consent
We serve cookies on this site to analyze traffic, remember your preferences, and optimize your experience.
Oops!
It seems there is something wrong with your internet connection. Please connect to the internet and start browsing again.

Ads Blocker Detected!

We have detected that you are using an extension to block ads. Please support us by disabling these ad blockers.

Refresh