Crawl Budget cho Googlebot là gì

Gần đây, chúng ta có nghe nói đến định nghĩa “Crawl Budget”, tuy nhiên chúng ta không có một thuật ngữ duy nhất có thể mô tả được mọi thứ về “Crawl Budget” từ phía bên ngoài. Bài viết này sẽ làm rõ về thuật ngữ này và ý nghĩa của nó đến Googlebot.

Đầu tiên, chúng tôi xin nhấn mạnh rằng “Crawl Budget” – theo như mô tả dưới đây – không phải là thứ gì đó mà các nhà xuất bản nội dung phải lo lắng. Bản thân ngữ nghĩa của thuật ngữ “Crawl Budget” cũng nói lên rằng việc thu thập dữ liệu của Googlebot cũng có giới hạn và ưu tiên, giống như việc chúng ta dành ra một ngân sách cố định cho một chiến dịch quảng cáo vậy. Nếu các trang mới trên website của bạn có xu hướng được Googlebot thu thập trong cùng ngày chúng xuất bản thì bạn cũng không cần phải tập trung vào “Crawl Budget” làm gì. Tương tự, nếu website của bạn có ít hơn một vài nghìn URL thì hầu hết chúng đều được Googlebot thu thập hiệu quả.

Crawl Budget và việc thu thập dữ liệu trên website

Googlebot ưu tiên những gì để thu thập? Khi nào và bao nhiêu tài nguyên mà máy chủ chứa website có thể phân bổ cho việc thu thập dữ liệu của Googlebot? Những điều này trở nên quan trọng hơn đối với những các trang lớn, hoặc những trang web tự động phát sinh ra các trang dựa vào các tham số trên URL chẳng hạn.

Crawl Rate Limit – Giới hạn tỉ lệ thu thập thông tin của Googlebot

Googlebot được thiết kế để trở thành một công dân tốt của thế giới website. Thu thập dữ liệu các website là ưu tiên chính của nó, tuy nhiên vẫn phải đảm bảo việc thu thập đó không ảnh hưởng đến trải nghiệm người dùng. Chúng tôi gọi đây là “Crawl Rate Limit” – mức giới hạn tỉ lệ thu thập thông tin – giới hạn tỉ lệ tìm nạp của Googlebot đối với một số trang web nhất định.

Đơn giản chỉ cần thiết lập “Crawl Rate Limit”, thể hiện cho số lượng kết nối song song đồng thời mà Googlebot có thể sử dụng để thu thập thông tin website, cũng như thời gian phải chờ giữa các lần tìm nạp, “Crawl Rate Limit” có thể tăng hoặc giảm dựa vào một vài yếu tố sau:

  • Crawl Health – Độ khỏe mạnh của việc thu thập:
    Nếu trang web có tốc độ phản hồi thật sự nhanh, mức giới hạn tăng lên, càng nhiều kết nối được sử dụng cho việc thu thập dữ liệu của Googlebot. Nếu website có tốc độ tải chậm, hoặc trả về các mã lỗi của server, mức giới hạn xuống thấp, Googlebot thu thập ít dữ liệu của bạn hơn.
  • Limit Set – Chỉ số giới hạn thu thập dữ liệu trong Search Console:
    Chủ website có thể giảm sự thu thập dữ liệu của Googlebot bằng cách đặt giá trị cho chỉ số này bên trong Search Console. Tuy nhiên, nếu thiết lập mức giới hạn cao hơn không đồng nghĩa tốc độ thu thập dữ liệu của Googlebot tự động tăng theo. Chỉ số này chỉ các tác dụng ngay đối với việc giảm sự thu thập dữ liệu.

Crawl Demand – Yêu cầu thu thập thông tin

Ngay cả khi mức giới hạn “Crawl Rate Limit” không đạt được, nếu không có yêu cầu từ chỉ mục (indexing), Googlebot vẫn sẽ tự hoạt động ở mức độ thấp. Hai yếu tố đóng vai trò quan trọng trong việc xác định yêu cầu thu thập dữ liệu là:

  • Sự phổ biến:
    Các URL có độ phổ biến cao sẽ được Googlebot thu thập dữ liệu ở mức thường xuyên hơn để chúng luôn tươi mới trong chỉ mục của chúng tôi.
  • Sự ôi thiu:
    Hệ thống của chúng tôi nỗ lực ngăn chặn các URL đã trở nên cũ kỹ trong chỉ mục.

Ngoài ra, các sự kiện diễn ra trên toàn bộ trang web như di chuyển tên miền cho website có thể kích hoạt tăng cường yêu cầu thu thập dữ liệu của Googlebot  để đánh chỉ mục lại nội dung theo các URL mới.

Lấy “Crawl Rate Limit”“Crawl Demand” làm 2 chỉ số cho định nghĩa về “Crawl Budget” – là số lượng URL mà Googlebot có thể và muốn thu thập trên website của bạn.

Các yếu tố ảnh hưởng đến Crawl Budget

Theo phân tích của chúng tôi, có nhiều URL giá trị thấp có thể ảnh hưởng tiêu cực đến việc thu thập và lập chỉ mục trang web, điển hình như các loại sau:

  • Bộ lọc nhiều chiều (faceted navigation) và session định danh.
  • Nội dung trùng lặp trên cùng trang (do tồn tại nhiều cách truy vấn URL khác nhau nhưng cùng trả về 1 kết quả).
  • Trang bị hack.
  • Không gian vô hạn và proxies.
  • Nội dung rác hoặc chất lượng thấp.

Lãng phí tài nguyên trên những trang như thế này sẽ làm tiêu hao các hoạt động thu thập dữ liệu có giá trị, gây ra sự chậm trễ đáng kể với việc cập nhật các nội dung của một website.

Theo Gary – Crawling and Indexing teams