Hướng dẫn chen robot gôgle
Robot.txt là tập tin văn bản trong thư mục gốc của website. Nó cung cấp chỉ dẫn cho các công cụ tìm kiếm dữ liệu về các site mà họ có thể thu thập thông tin, dữ liệu để lập chỉ mục. Robots.txt là một trong những điều đầu tiên mà mọi người cần phải kiểm tra và tối ưu trong tối ưu kỹ thuật SEO. Bất kì một sự cố hoặc cấu hình sai nào trong File Robots.txt nào của bạn cũng có thể gây ra các vấn đề SEO, tác động tiêu cực đến thứ hạng của web trên bảng tìm kiếm. Vậy File Robots.txt là gì? Hãy cùng Mona Media tìm hiểu trong bài viết này nhé. Show
File robots.txt là gì?File robots.txt là một tập tin đơn giản chuyên được sử dụng trong quản trị website. Nó là một phần của REP (Robots Exclusion Protocol) chứa một nhóm các tiêu chuẩn về web theo quy định. Công dụng của File robots.txt là giúp cho các nhà quản trị web có được sự linh hoạt và chủ động hơn trong việc kiểm soát bọ của Google. File robots.txt được sử dụng để cấp quyền chỉ mục cho những con bọ của công cụ tìm kiếm. Bất cứ một website nào thì cũng nên sử dụng File robots.txt, đặc biệt là những trang web lớn hoặc đang xây dựng. Những công dụng của File robots.txt đối với websiteChặn google trong quá trình xây dựng webTrong quá trình xây dựng web, khi mà tất cả mọi thứ đều chưa được như ý muốn. Đây là khoảng thời gian và nhà tạo lập cần chăn bọ của google để nó không index những nội dung chưa được hoàn thiện. Bạn có thể tìm hiểu thêm về Google Index tại đây Bạn chỉ nên sử dụng File robots.txt trong quá trình thiết lập hệ thống. Nếu website đang hoạt động một cách ổn định thì đừng chèn các đoạn mã này vào File robots.txt. Bởi làm như vậy, trang web của mọi người sẽ không thể xuất hiện trên bảng kết quả tìm kiếm. Để xây dựng website hiệu quả bạn có thể tham khảo một số thông tin sau:
Đôi khi việc xây dựng website sẽ gặp khó khăn đối với một số người mới hoặc người không có chuyên môn về lập trình. Lúc đó bạn có thể tham khảo dịch vụ thiết kế website trọn gói của Mona Media Chèn SitemapSitemap được ví như một tấm bản đồ giúp cho google có thể khám phá về các trang web của bạn. Nếu số lượng bài viết được index của trang web quá lớn mà trang web đó không có Sitemap thì google sẽ không có đủ tài nguyên để index hết tất cả. Như vậy, một số nội dung quan trọng sẽ không được xuất hiện. Chặn bọ quét backlinkHiện tại có 3 công cụ giúp quét backlink phổ biến đó là Moz, Majestic và Ahrefs. Các phần mềm này được trang bị chức năng để quét backlink của bất kì một website nào. Lúc này, công dụng của robots.txt sẽ ngăn điều này để khiến cho đối thủ không thể phân tích backlink của mình. Thông tin chi tiết backlink là gì và các loại link của một website bạn cần biết:
Chặn các thư mục cần bảo mậtNhững mã nguồn của website thường đều có các thư mục cần được bảo mật. Ví dụ như wp-includes, phpinfo.php, wp-admin, memcached, cgi-bin… Những trang web này chắc chắn không được index. Bởi một khi nội dung được công khai trên internet, các hacker sẽ có thể lấy cắp đi những thông tin quan trọng, thậm chí là tấn công vào hệ thống của bạn. Công dụng của robots.txt sẽ giúp ngăn chặn việc google index các nội dung này. Chặn các mã độc hạiBên cạnh những phần mềm có thể giúp kiểm tra backlink vẫn còn một số phần mềm độc hại khác mà đối thủ có thể sử dụng. Có những con bọ được tạo ra chuyện để sao chép nội dung của người khác. Hoặc những con bọ gửi quá nhiều và nhanh request tới máy chủ của bạn. Điều này khiến cho hệ thống của bạn bị hao phí băng thông và tài nguyên. Tham khảo:
Chăn bọ đối với các trang thương mại điện tửNhững trang thương mại điện tử sẽ có một số tính năng đặc trưng cho người dùng. Chẳng hạn như đăng ký, đăng nhập, đánh giá sản phẩm, giỏ hàng… những chức năng không thể thiếu. Họ thường tạo ra các nội dung trùng lặp, những nội dung này sẽ không để hỗ trợ cho việc SEO từ khóa. Do đó, mọi người có thể sử dụng robots.txt để chặn index các đường dẫn này. Các thuật ngữ, cú pháp của file robots.txtCú pháp được xem như ngôn ngữ của các tập tin robots.txt. Có 5 thuật ngữ mà mọi người sẽ bắt gặp trong một file robots.txt bao gồm:
File robot.txt nằm ở đâu trong một website?Như đã nói, phần sau User-agent: Dấu * có nghĩa là quy tắc được áp dụng cho tất cả các bots ở khắp nơi trên website. Khi này, file sẽ cho bots biết rằng chúng không được phép vào trong file như mục wp-includes và wp-admin bởi 2 thư mục này chứa rất nhiều thông tin nhạy cảm. Hãy nhớ rằng đây là một file ảo, do WordPress tự thiết lập khi cài đặt và không thể chỉnh sửa được. Thông thường, vị trí của file robots.txt WordPress sẽ được đặt trong thư mục gốc, thường được gọi là www và public_html. Và để có thể tạo ra file robots.txt cho riêng mình thì mọi người cần phải tạo file mới thay thế cho file cũ trong thư mục gốc. Hướng dẫn cách tạo File robot.txt cho websiteBot là một chương trình thu thập dữ liệu của các công cụ tìm kiếm như bing bot, google bot, coccoc bot…. Googlebot sử dụng các thuật toán và quét tất cả website tiếp nhận dữ liệu vào cơ sở dữ liệu. Thông qua đó người dùng có thể dễ dàng tìm kiếm những thông tin đó bằng các công cụ tìm kiếm. Tuy nhiên, nếu như muốn ngăn chặn điều này thì mọi người cần biết cách tạo ra robots.txt. Để có thể tạo ra File robots.txt mọi người cần phải sử dụng các công cụ soạn thảo văn bản đơn giản như Notepad trong Windows. Chỉ cần tạo một tệp mới, sau đó đặt tên là robots.txt rồi lưu lại vậy là đã hoàn thành phần khởi tạo. Trong file này mọi người sẽ viết ra những cú pháp nhất định để thực hiện mục đích của mình. Một số cớ pháp được sử dụng phổ biến có thể kể đến như User-agent, Allow, Disallow và dấu *. Những lưu ý khi sử dụng File robot.txtĐể tạo ra robots.txt thì nhất định cú pháp phải được viết một cách chính xác, không để thừa một khoảng trắng hay ký tự nào cả. Ngoài ra còn phân biệt cả chữ hoa và chữ thường. File robots.txt còn không được sử dụng mã Unicode mà phải lưu bằng bảng mã utf-8. Bởi nếu làm như vậy sẽ hiển thị ra những ký tự không đúng như đã viết lúc đầu, làm sai mã chỉ dẫn. Việc chăn các loại bot bằng file này chỉ mang tính tương đối. Nếu bạn đặt đường link từ những trang không bị chặn đến các trang bị chặn thì những trang đã bị chặn vẫn có thể xuất hiện trên bảng kết quả tìm kiếm. Do đó, khi muốn bảo vệ các nội dung của mình một cách tốt nhất, bên cạnh cách tạo robots.txt thì mọi người nên đặt mật khẩu cho các thư mục của mình. Khi nào cần sử dụng File robot.txt?Chăn công cụ tìm kiếm khi đang xây dựng websiteQuá trình xây dựng và hoàn thiện website có thể sẽ phải mất nhiều ngày, đối với những website phức tạp có thể còn phải mất nhiều thời gian hơn. Trong khoảng thời gian này, khi mà các nội dung đưa lên để chạy thử chưa được chỉnh sửa thì mọi người không nên để công cụ tìm kiếm index. Bởi những trang chưa được hoàn thiện tốt sẽ không tốt cho dịch vụ SEO. Tránh bị đối thủ chơi xấuKhi sử dụng công cụ Search nhúng vào web thì trang kết quả sẽ có một URL riêng. Tất nhiễn, google vẫn có thể index những trang đó. Điều nguy hiểm nhất là đối thủ có thể tạn dụng tính năng này để search những từ khóa có nội dung xấu nhằm gây tổn hại cho danh tiếng website của bạn. Chính vì vậy, hãy chặn hết toàn bộ các trang kết quả, không cho đánh giá nội dung và index. Chăn các công cụ thu thập liên kếtNhững công cụ như Ahref đều có con bọ riêng để thu thập các thông tin về website. Những thông tin đó gồm Backlink, Organic keywords, Referring domains, top pages…. Đối thủ có thể sử dụng những công cụ này để phân tích website của bạn. Để ngăn chặn điều này mọi người có thể sử dụng robots.txt. Một số câu hỏi thường gặp về file robots.txtDưới đây là một số câu hỏi thường gặp, cũng có thể là những thắc mắc của bạn về robots.txt:
Với các thông tin mà chúng tôi vừa cung cấp ở trên, chắc hẳn mọi người đã hiểu rõ hơn về File Robots.txt. Tạo và chỉnh sửa file robot.txt WordPress theo ý muốn của bạn nhằm hỗ trợ những con bot của công cụ tìm kiếm thu thập và index trang web của bạn một cách nhanh chóng hơn. |