Hướng dẫn chen robot gôgle

Robot.txt là tập tin văn bản trong thư mục gốc của website. Nó cung cấp chỉ dẫn cho các công cụ tìm kiếm dữ liệu về các site mà họ có thể thu thập thông tin, dữ liệu để lập chỉ mục. Robots.txt là một trong những điều đầu tiên mà mọi người cần phải kiểm tra và tối ưu trong tối ưu kỹ thuật SEO. Bất kì một sự cố hoặc cấu hình sai nào trong File Robots.txt nào của bạn cũng có thể gây ra các vấn đề SEO, tác động tiêu cực đến thứ hạng của web trên bảng tìm kiếm. Vậy File Robots.txt là gì? Hãy cùng Mona Media tìm hiểu trong bài viết này nhé.

File robots.txt là gì?

File robots.txt là một tập tin đơn giản chuyên được sử dụng trong quản trị website. Nó là một phần của REP (Robots Exclusion Protocol) chứa một nhóm các tiêu chuẩn về web theo quy định. Công dụng của File robots.txt là giúp cho các nhà quản trị web có được sự linh hoạt và chủ động hơn trong việc kiểm soát bọ của Google.

Hướng dẫn chen robot gôgle

File robots.txt được sử dụng để cấp quyền chỉ mục cho những con bọ của công cụ tìm kiếm. Bất cứ một website nào thì cũng nên sử dụng File robots.txt, đặc biệt là những trang web lớn hoặc đang xây dựng.

Những công dụng của File robots.txt đối với website

Chặn google trong quá trình xây dựng web

Trong quá trình xây dựng web, khi mà tất cả mọi thứ đều chưa được như ý muốn. Đây là khoảng thời gian và nhà tạo lập cần chăn bọ của google để nó không index những nội dung chưa được hoàn thiện. Bạn có thể tìm hiểu thêm về Google Index tại đây

Bạn chỉ nên sử dụng File robots.txt trong quá trình thiết lập hệ thống. Nếu website đang hoạt động một cách ổn định thì đừng chèn các đoạn mã này vào File robots.txt. Bởi làm như vậy, trang web của mọi người sẽ không thể xuất hiện trên bảng kết quả tìm kiếm.

Để xây dựng website hiệu quả bạn có thể tham khảo một số thông tin sau:

  • Cấu trúc website: tiêu chí xây dựng website chuẩn SEO
  • Cách tạo trang web – sở hữu 1 website từ ý tưởng đến thực thi

Đôi khi việc xây dựng website sẽ gặp khó khăn đối với một số người mới hoặc người không có chuyên môn về lập trình. Lúc đó bạn có thể tham khảo dịch vụ thiết kế website trọn gói của Mona Media

Chèn Sitemap

Hướng dẫn chen robot gôgle

Sitemap được ví như một tấm bản đồ giúp cho google có thể khám phá về các trang web của bạn. Nếu số lượng bài viết được index của trang web quá lớn mà trang web đó không có Sitemap thì google sẽ không có đủ tài nguyên để index hết tất cả. Như vậy, một số nội dung quan trọng sẽ không được xuất hiện.

Hiện tại có 3 công cụ giúp quét backlink phổ biến đó là Moz, Majestic và Ahrefs. Các phần mềm này được trang bị chức năng để quét backlink của bất kì một website nào. Lúc này, công dụng của robots.txt sẽ ngăn điều này để khiến cho đối thủ không thể phân tích backlink của mình.

Thông tin chi tiết backlink là gì và các loại link của một website bạn cần biết:

  • Backlink là gì? Vai trò của Backlink trong SEO là gì?
  • Link là gì? Khái niệm và cách sử dụng các loại Link trong website
  • Do-follow và No-follow là gì và cách nhận biết 2 loại link – công dụng của từng loại

Chặn các thư mục cần bảo mật

Những mã nguồn của website thường đều có các thư mục cần được bảo mật. Ví dụ như wp-includes, phpinfo.php, wp-admin, memcached, cgi-bin…

Những trang web này chắc chắn không được index. Bởi một khi nội dung được công khai trên internet, các hacker sẽ có thể lấy cắp đi những thông tin quan trọng, thậm chí là tấn công vào hệ thống của bạn. Công dụng của robots.txt sẽ giúp ngăn chặn việc google index các nội dung này.

Chặn các mã độc hại

Hướng dẫn chen robot gôgle

Bên cạnh những phần mềm có thể giúp kiểm tra backlink vẫn còn một số phần mềm độc hại khác mà đối thủ có thể sử dụng. Có những con bọ được tạo ra chuyện để sao chép nội dung của người khác. Hoặc những con bọ gửi quá nhiều và nhanh request tới máy chủ của bạn. Điều này khiến cho hệ thống của bạn bị hao phí băng thông và tài nguyên.

Tham khảo:

  • Top 5 công cụ quét mã độc website giữ an toàn cho máy tính
  • Bảo mật website và những điều cần biết để tối ưu

Chăn bọ đối với các trang thương mại điện tử

Những trang thương mại điện tử sẽ có một số tính năng đặc trưng cho người dùng. Chẳng hạn như đăng ký, đăng nhập, đánh giá sản phẩm, giỏ hàng… những chức năng không thể thiếu. Họ thường tạo ra các nội dung trùng lặp, những nội dung này sẽ không để hỗ trợ cho việc SEO từ khóa. Do đó, mọi người có thể sử dụng robots.txt để chặn index các đường dẫn này.

Các thuật ngữ, cú pháp của file robots.txt

Cú pháp được xem như ngôn ngữ của các tập tin robots.txt. Có 5 thuật ngữ mà mọi người sẽ bắt gặp trong một file robots.txt bao gồm:

  • User-agent: Đây là phần tên của các trình thu thập, truy cập dữ liệu của web
  • Disallow: Nó được sử dụng để thông báo cho các User-agent không thu thập một URL cụ thể nào. Mỗi một URL sẽ chỉ được sử dụng cho một dòng Disallow.
  • Allow: Lệnh được sử dụng để thông báo cho google rằng nó sẽ truy cập vào thư mục con hoặc một trang. Mặc dù các thư mục con và các trang của nó có thể không được phép.
  • Crawl-delay: Thông báo cho các Web Crawler biết được nó cần đợi bao lâu trước khi tải và thu thập nội dung của trang. Tuy nhiên, mọi người cần lưu ý rằng bọ tìm kiếm Googlebot sẽ không thừa nhận lệnh này. Do đó, cần phải tăng tốc độ thu thập dữ liệu trong Google.
  • Sitemap: Sử dụng để cung cấp vị trí của bất cứ Sitemap XML nào được liên kết với URL này. Lệnh này được hỗ trợ bởi công cụ Google, Yahoo, Ask và Bing.

File robot.txt nằm ở đâu trong một website?

Như đã nói, phần sau User-agent: Dấu * có nghĩa là quy tắc được áp dụng cho tất cả các bots ở khắp nơi trên website. Khi này, file sẽ cho bots biết rằng chúng không được phép vào trong file như mục wp-includes và wp-admin bởi 2 thư mục này chứa rất nhiều thông tin nhạy cảm.

Hãy nhớ rằng đây là một file ảo, do WordPress tự thiết lập khi cài đặt và không thể chỉnh sửa được. Thông thường, vị trí của file robots.txt WordPress sẽ được đặt trong thư mục gốc, thường được gọi là www và public_html. Và để có thể tạo ra file robots.txt cho riêng mình thì mọi người cần phải tạo file mới thay thế cho file cũ trong thư mục gốc.

Hướng dẫn cách tạo File robot.txt cho website

Hướng dẫn chen robot gôgle

Bot là một chương trình thu thập dữ liệu của các công cụ tìm kiếm như bing bot, google bot, coccoc bot…. Googlebot sử dụng các thuật toán và quét tất cả website tiếp nhận dữ liệu vào cơ sở dữ liệu. Thông qua đó người dùng có thể dễ dàng tìm kiếm những thông tin đó bằng các công cụ tìm kiếm. Tuy nhiên, nếu như muốn ngăn chặn điều này thì mọi người cần biết cách tạo ra robots.txt.

Để có thể tạo ra File robots.txt mọi người cần phải sử dụng các công cụ soạn thảo văn bản đơn giản như Notepad trong Windows. Chỉ cần tạo một tệp mới, sau đó đặt tên là robots.txt rồi lưu lại vậy là đã hoàn thành phần khởi tạo.

Trong file này mọi người sẽ viết ra những cú pháp nhất định để thực hiện mục đích của mình. Một số cớ pháp được sử dụng phổ biến có thể kể đến như User-agent, Allow, Disallow và dấu *.

Những lưu ý khi sử dụng File robot.txt

Để tạo ra robots.txt thì nhất định cú pháp phải được viết một cách chính xác, không để thừa một khoảng trắng hay ký tự nào cả. Ngoài ra còn phân biệt cả chữ hoa và chữ thường. File robots.txt còn không được sử dụng mã Unicode mà phải lưu bằng bảng mã utf-8. Bởi nếu làm như vậy sẽ hiển thị ra những ký tự không đúng như đã viết lúc đầu, làm sai mã chỉ dẫn.

Việc chăn các loại bot bằng file này chỉ mang tính tương đối. Nếu bạn đặt đường link từ những trang không bị chặn đến các trang bị chặn thì những trang đã bị chặn vẫn có thể xuất hiện trên bảng kết quả tìm kiếm. Do đó, khi muốn bảo vệ các nội dung của mình một cách tốt nhất, bên cạnh cách tạo robots.txt thì mọi người nên đặt mật khẩu cho các thư mục của mình.

Khi nào cần sử dụng File robot.txt?

Chăn công cụ tìm kiếm khi đang xây dựng website

Quá trình xây dựng và hoàn thiện website có thể sẽ phải mất nhiều ngày, đối với những website phức tạp có thể còn phải mất nhiều thời gian hơn. Trong khoảng thời gian này, khi mà các nội dung đưa lên để chạy thử chưa được chỉnh sửa thì mọi người không nên để công cụ tìm kiếm index. Bởi những trang chưa được hoàn thiện tốt sẽ không tốt cho dịch vụ SEO.

Tránh bị đối thủ chơi xấu

Khi sử dụng công cụ Search nhúng vào web thì trang kết quả sẽ có một URL riêng. Tất nhiễn, google vẫn có thể index những trang đó. Điều nguy hiểm nhất là đối thủ có thể tạn dụng tính năng này để search những từ khóa có nội dung xấu nhằm gây tổn hại cho danh tiếng website của bạn. Chính vì vậy, hãy chặn hết toàn bộ các trang kết quả, không cho đánh giá nội dung và index.

Chăn các công cụ thu thập liên kết

Những công cụ như Ahref đều có con bọ riêng để thu thập các thông tin về website. Những thông tin đó gồm Backlink, Organic keywords, Referring domains, top pages…. Đối thủ có thể sử dụng những công cụ này để phân tích website của bạn. Để ngăn chặn điều này mọi người có thể sử dụng robots.txt.

Một số câu hỏi thường gặp về file robots.txt

Hướng dẫn chen robot gôgle

Dưới đây là một số câu hỏi thường gặp, cũng có thể là những thắc mắc của bạn về robots.txt:

  • Kích thước tối đa của file robots.txt là bao nhiêu?
    • 500 kilobyte
  • Làm thế nào để chỉnh sửa robots.txt WordPress?
    •  Mọi người có thể sử dụng phương pháp thủ công hoặc sử dụng Plugin WordPress SEO như Yoast cho phép bạn chỉnh sửa robots.txt từ WordPress backend.
  • Vị trí của File robots.txt WordPress trên website ở đâu?
    • Tại vị trí: domain.com/robots.txt
  • Điều gì sẽ xảy ra khi Disallow vào nội dung Noindex trong robots.txt?
    • Các lệnh trong tệp robots.txt sẽ chỉ được áp dụng cho các đường dẫn tương đối.
  • Cách chặn các Web Crawler?
    • Tất cả việc mà mọi người cần làm đó là truy cập vào Settings > Reading rồi chọn vào ô bên cạnh tùy chọn Search Engine Visibility. Khi đã được chọn, hãy thêm “meta name=’robots’ content=’noindex,follow’” vào trang web của bạn. WordPress cũng sẽ thay đổi file robots.txt trong trang web của bạn về thêm những dòng này “User-agent: * Disallow: /”.

Với các thông tin mà chúng tôi vừa cung cấp ở trên, chắc hẳn mọi người đã hiểu rõ hơn về File Robots.txt. Tạo và chỉnh sửa file robot.txt WordPress theo ý muốn của bạn nhằm hỗ trợ những con bot của công cụ tìm kiếm thu thập và index trang web của bạn một cách nhanh chóng hơn.