Cloudflare hiện sẽ mặc định chặn các bot AI khỏi việc thu thập dữ liệu từ các trang web của khách hàng. Công ty cũng sẽ giới thiệu hệ thống “trả tiền cho mỗi lần thu thập thông tin” để cung cấp cho người dùng quyền kiểm soát chặt chẽ hơn về cách các công ty AI có thể truy cập vào trang web của họ.
01/07/2025, công ty cơ sở hạ tầng internet Cloudflare đã thông báo rằng họ sẽ mặc định chặn các bot AI truy cập vào các trang web mà họ lưu trữ. Cloudflare cũng sẽ cung cấp cho khách hàng khả năng cho phép hoặc cấm các bot AI này theo từng trường hợp cụ thể và sẽ giới thiệu dịch vụ được gọi là “trả tiền cho mỗi lần thu thập dữ liệu” mà khách hàng có thể sử dụng để nhận được khoản bồi thường mỗi khi một bot AI muốn thu thập nội dung trang web của họ.
Các bot đang nói đến là một loại trình thu thập dữ liệu web, một thuật toán đi qua internet để phân tích và lập danh mục thông tin trực tuyến trên mỗi trang web. Trước đây, trình thu thập dữ liệu web thường được liên kết với việc thu thập dữ liệu cho các công cụ tìm kiếm, nhưng hiện nay các nhà phát triển sử dụng chúng để thu thập dữ liệu họ cần để xây dựng và sử dụng các hệ thống AI.
Tuy nhiên, những hệ thống như vậy không cung cấp cùng một cơ hội kiếm tiền và ghi nhận như các công cụ tìm kiếm trước đây. Các mô hình AI lấy từ rất nhiều dữ liệu trên web để tạo ra kết quả đầu ra của chúng, nhưng những nguồn dữ liệu này thường không được ghi nhận, hạn chế khả năng kiếm tiền từ công việc của người sáng tạo. Các công cụ tìm kiếm có các câu trả lời do AI tạo ra có thể bao gồm các liên kết đến các nguồn gốc, nhưng chúng cũng có thể làm giảm sự quan tâm của mọi người khi nhấp vào các trang web khác và thậm chí có thể mở ra tương lai “không nhấp chuột” .
“Theo truyền thống, thỏa thuận ngầm là công cụ tìm kiếm có thể lập chỉ mục nội dung của bạn, sau đó sẽ hiển thị các liên kết có liên quan đến một truy vấn cụ thể và gửi lưu lượng truy cập trở lại trang web của bạn”, Will Allen, giám đốc sản phẩm truyền thông, kiểm soát và quyền riêng tư AI của Cloudflare, đã viết trong email gửi cho MIT Technology Review . “Điều đó đang thay đổi cơ bản”.
Nhìn chung, người sáng tạo và nhà xuất bản muốn quyết định cách sử dụng nội dung của họ, cách liên kết với họ và cách họ được trả tiền cho nội dung đó. Cloudflare tuyên bố rằng khách hàng của họ hiện có thể cho phép hoặc không cho phép thu thập dữ liệu cho từng giai đoạn của vòng đời AI (cụ thể là đào tạo, tinh chỉnh và suy luận) và đưa vào danh sách trắng các trình thu thập dữ liệu đã xác minh cụ thể. Khách hàng cũng có thể đặt mức giá cho chi phí mà các bot AI phải trả để thu thập dữ liệu trang web của họ.
Trong một thông cáo báo chí từ Cloudflare, các công ty truyền thông như Associated Press và Time và các diễn đàn như Quora và Stack Overflow đã lên tiếng ủng hộ động thái này. “Các nền tảng cộng đồng thúc đẩy LLM nên được đền bù cho những đóng góp của họ để họ có thể đầu tư trở lại vào cộng đồng của mình”, CEO của Stack Overflow Prashanth Chandrasekar cho biết trong thông cáo.
Các chương trình thu thập thông tin được cho là phải tuân theo các chỉ dẫn của một trang web nhất định (được cung cấp thông qua tệp robots.txt) để xác định xem chúng có thể thu thập thông tin ở đó hay không, nhưng một số công ty AI đã bị cáo buộc là bỏ qua các chỉ dẫn này.
Cloudflare đã có một hệ thống xác minh bot, nơi các trình thu thập dữ liệu web AI có thể cho các trang web biết chúng làm việc cho ai và chúng muốn làm gì. Đối với những điều này, Cloudflare hy vọng hệ thống của mình có thể tạo điều kiện cho các cuộc đàm phán thiện chí giữa các công ty AI và chủ sở hữu trang web. Đối với các trình thu thập dữ liệu ít trung thực hơn, Cloudflare có kế hoạch sử dụng kinh nghiệm của mình trong việc xử lý các cuộc tấn công từ chối dịch vụ phối hợp từ các bot để ngăn chặn chúng.
Allen viết: “Một trình thu thập dữ liệu web đang truy cập internet để tìm kiếm nội dung mới nhất chỉ là một loại bot khác, vì vậy, tất cả công việc của chúng tôi nhằm hiểu các mẫu lưu lượng truy cập và mạng để tìm ra các bot độc hại rõ ràng sẽ giúp chúng tôi hiểu được trình thu thập dữ liệu đang làm gì”.
Cloudflare đã phát triển những cách khác để ngăn chặn các trình thu thập dữ liệu không mong muốn, như cho phép các trang web gửi chúng xuống một đường dẫn các trang web giả do AI tạo ra để lãng phí công sức của chúng. Mặc dù cách tiếp cận này vẫn áp dụng cho những kẻ thực sự xấu, công ty cho biết họ hy vọng các dịch vụ mới của mình có thể thúc đẩy mối quan hệ tốt hơn giữa các công ty AI và nhà sản xuất nội dung.
Một số cảnh báo rằng lệnh cấm mặc định đối với trình thu thập dữ liệu AI có thể ảnh hưởng đến mục đích sử dụng phi thương mại, như nghiên cứu. Ngoài việc thu thập dữ liệu cho các hệ thống AI và công cụ tìm kiếm, trình thu thập dữ liệu cũng được các dịch vụ lưu trữ web sử dụng, chẳng hạn.
“Không phải tất cả các hệ thống AI đều cạnh tranh với tất cả các nhà xuất bản web. Không phải tất cả các hệ thống AI đều mang tính thương mại”, Shayne Longpre, ứng viên tiến sĩ tại Phòng thí nghiệm truyền thông MIT, người làm việc về nguồn gốc dữ liệu, cho biết. “Việc sử dụng cá nhân và nghiên cứu mở không nên bị hy sinh ở đây”.
Về phần mình, Cloudflare hướng đến mục tiêu bảo vệ tính công khai của internet bằng cách giúp các nhà xuất bản web thực hiện các thỏa thuận bền vững hơn với các công ty AI. Allen viết: “Bằng cách xác minh trình thu thập thông tin và mục đích của nó, chủ sở hữu trang web có quyền kiểm soát chi tiết hơn, nghĩa là họ có thể để trang web mở hơn cho con người thực nếu họ muốn”.

Nguồn tham khảo và có liên quan:
- https://blog.cloudflare.com/introducing-pay-per-crawl/
- https://searchengineland.com/cloudflare-to-block-ai-crawlers-by-default-with-new-pay-per-crawl-initiative-457708
- https://www.technologyreview.com/2025/07/01/1119498/cloudflare-will-now-by-default-block-ai-bots-from-crawling-its-clients-websites/
- https://thetechrevolutionist.com/2025/07/cloudflare-pay-per-crawl-for-ai-bots.html
- https://www.seroundtable.com/cloudflare-block-ai-crawlers-39673.html

Bài viết cùng chuyên mục, chủ đề