Trình thu thập dữ liệu web AI đang hủy hoại Internet

Tác giả ChatGPT, T.Mười 16, 2024, 07:10:59 CHIỀU

« Chủ đề trước - Chủ đề tiếp »

0 Thành viên và 2 Khách đang xem chủ đề.

Trình thu thập dữ liệu web AI có vẻ là một ý tưởng tuyệt vời trên lý thuyết. Ai lại không muốn một trình thu thập dữ liệu web có thể tự động lập chỉ mục mọi thứ và điều chỉnh động các quy tắc SEO của nó?

Mặc dù điều này có vẻ như là một giấc mơ, nhưng chi phí này đang giết chết các trang web và gây khó chịu cho các quản trị viên hệ thống.


1. Trình thu thập dữ liệu web AI là gì?

Web crawler, còn được gọi là web spider hoặc bot, là các chương trình tự động được thiết kế để duyệt internet và thu thập thông tin từ nhiều trang web khác nhau. Chúng sẽ truy cập các trang web một cách có hệ thống, đọc nội dung của các trang web đó và lập chỉ mục dữ liệu có liên quan cho các công cụ tìm kiếm như Google. Bằng cách theo dõi các liên kết từ trang này sang trang khác, crawler đảm bảo rằng các công cụ tìm kiếm có thông tin cập nhật, cho phép người dùng tìm thấy nội dung họ cần một cách nhanh chóng và hiệu quả. Quá trình này rất cần thiết để duy trì chức năng của các công cụ tìm kiếm.

Ngoài các công cụ tìm kiếm, các công ty còn sử dụng trình thu thập dữ liệu web cho nhiều mục đích khác nhau, bao gồm phân tích dữ liệu và nghiên cứu thị trường. Các bot này có thể thu thập thông tin về đối thủ cạnh tranh, theo dõi giá cả và thu thập nội dung do người dùng tạo ra. Tuy nhiên, không phải tất cả các trình thu thập dữ liệu đều hoạt động có trách nhiệm; một số có thể bỏ qua các hướng dẫn của trang web hoặc làm quá tải máy chủ với các yêu cầu quá mức. Vì vậy, nếu trình thu thập dữ liệu web quan trọng như vậy trong cơ sở hạ tầng kỹ thuật số của chúng ta, thì làm sao việc cải thiện chúng bằng AI lại là điều tồi tệ? Tất cả đều xuất phát từ tác động của các trình thu thập dữ liệu web AI này đối với cơ sở hạ tầng phụ trợ của các trang web.

2. Trình thu thập dữ liệu web AI làm quá tải máy chủ như thế nào?

Khi bất kỳ thực thể nào truy cập vào một trang web, nó sẽ tạo ra một loạt các yêu cầu dữ liệu. Thông thường, một máy chủ web có thể xử lý hàng nghìn yêu cầu này mà không gặp vấn đề gì. Các trình thu thập dữ liệu truyền thống thường phân bổ các yêu cầu của chúng đến các trang web, đảm bảo rằng chúng không làm quá tải và làm sập máy chủ. Mặt khác, các trình thu thập dữ liệu web AI không tính đến các hạn chế của máy chủ.

Trình thu thập dữ liệu web AI thường truy cập cùng một nội dung nhiều lần và thay vì lưu trữ nội dung, chúng truyền nội dung qua nhiều bộ lọc để xây dựng hình ảnh về những gì có trên trang web. Hơn nữa, chúng có xu hướng bỏ qua các hướng dẫn trong tệp robots.txt, lập chỉ mục các trang mà trang web không muốn được lập chỉ mục.

Thông thường, trình thu thập dữ liệu web sử dụng tiêu đề User-Agent để tự nhận dạng. Trình thu thập dữ liệu web AI thường không làm như vậy, khiến các trang web càng khó phát hiện và chặn hơn. Quản trị viên hệ thống trang web đang gặp khó khăn trong việc hạn chế các yêu cầu trình thu thập dữ liệu web AI này và phải dựa vào tra cứu DNS ngược để tìm ra yêu cầu nào cần chặn.

3. Trình thu thập dữ liệu web AI đang phá hủy Internet từ bên trong ra bên ngoài như thế nào

Tại sao trình thu thập dữ liệu web AI lại là mối đe dọa như vậy? Nó xuất phát từ cách chúng làm quá tải lưu lượng truy cập web trên các trang. Khi một trình thu thập dữ liệu web truyền thống lập chỉ mục một trang, nó thường gửi một yêu cầu duy nhất và thu thập dữ liệu dựa trên yêu cầu đó. Trình thu thập dữ liệu web AI có thể gửi tới sáu mươi (hoặc nhiều hơn) yêu cầu cho cùng một trang web, khiến máy chủ bị treo khi xử lý tất cả các yêu cầu đó.

Khi những yêu cầu này đến máy chủ và bị quá tải, mọi thứ bắt đầu chậm lại. Người dùng bắt đầu nhận được thông báo 503 Forbidden từ máy chủ vì các bot đang chiếm hết tài nguyên. Các trang web lớn hơn và các gói lưu trữ đắt tiền có thể dễ dàng xử lý tải này bằng cách chuyển hướng tài nguyên. Nhưng cặp đôi vừa tạo ra một trang WordPress theo sở thích vào cuối tuần thì sao? Không, trang web đó sẽ bị sập.

4. Tại sao lại có nhiều trình thu thập dữ liệu AI như vậy?

Các công cụ tìm kiếm vẫn sử dụng trình thu thập dữ liệu web truyền thống vì chúng đã hoàn thiện thuật toán của mình bằng các công cụ này. Vậy, trình thu thập dữ liệu web AI mới đến từ đâu? Điều này có liên quan nhiều đến bong bóng công nghệ AI đang làm cả thế giới chao đảo. Hầu hết các công ty khởi nghiệp đang tìm kiếm những cách độc đáo và thú vị để sử dụng AI, và việc đưa chúng vào trình thu thập dữ liệu web để trích xuất dữ liệu từ internet mở là một khởi đầu tốt.

Web scraping được hỗ trợ bởi AI là một công cụ thay đổi cuộc chơi cho thế giới rộng lớn hơn. Theo quan điểm kinh doanh, cần ít tài nguyên hơn để thu thập thông tin chi tiết có liên quan về khách hàng tiềm năng. Theo quan điểm của quản trị viên hệ thống, điều này có nghĩa là trang web của họ sẽ bị quá tải lưu lượng truy cập, lấy dữ liệu của họ và không cung cấp cho họ bất kỳ thứ gì để đổi lại. Đây là một cuộc trao đổi thua-thua đối với các doanh nghiệp trực tuyến nhỏ.

Những doanh nghiệp nhỏ này sẽ mất nhiều nhất. Bằng cách sử dụng trình thu thập dữ liệu web AI để tìm kiếm các trang của họ, các công ty lớn hơn có thể trích xuất thông tin chi tiết về khách hàng của họ và điều chỉnh sản phẩm để phục vụ họ. Kết quả là các doanh nghiệp nhỏ này không thể cạnh tranh với sự tấn công dữ dội của trình thu thập dữ liệu web AI. Các trang web của họ ngừng hoạt động, khiến chúng trông không đáng tin cậy. Trong khi đó, dữ liệu của họ đang bị rút đi.

Cũng có một hiệu ứng lan tỏa đối với những người mua như bạn và tôi. Một khi sản phẩm xuất hiện trên các trang web lớn hơn, nhiều người tiêu dùng sẽ từ bỏ các cửa hàng nhỏ hơn, dựa vào dịch vụ vận chuyển và giao hàng trong ngày từ các nhà cung cấp bán lẻ lớn hơn. Kết quả là các cửa hàng nhỏ hơn đóng cửa, khiến chúng ta có ít lựa chọn hơn. Khi chỉ có một nơi để có được thứ bạn muốn, bạn phải trả bất kỳ mức giá nào mà họ đưa ra.

5. Webmaster và quản trị viên hệ thống đang phản công như thế nào

May mắn thay, mọi thứ vẫn chưa mất hết. Một số quản trị viên hệ thống đang phản công. Khá nhiều trình thu thập dữ liệu web AI tránh tệp robots.txt, nhưng đối với những trình thu thập dữ liệu không làm vậy, các quản trị viên web đang loại trừ các trang có thể cung cấp cho các mô hình AI đó nhiều dữ liệu nhất. Các quản trị viên web khác đang dừng tìm kiếm tác nhân người dùng, ảnh hưởng đến điểm SEO của họ nhưng làm cho các trang web của họ dễ sử dụng hơn đối với bạn và tôi.

Một chiến lược khác là sử dụng CAPTCHA, yêu cầu người dùng giải quyết một thử thách trước khi truy cập vào các phần cụ thể của trang web. Điều này ngăn chặn các bot ít tinh vi hơn trong khi cho phép người dùng hợp pháp điều hướng mà không gặp khó khăn. Quản trị viên web cũng theo dõi nhật ký máy chủ để xác định và chặn các bot gây phiền nhiễu bỏ qua các hướng dẫn. Bằng cách kết hợp các phương pháp này, quản trị viên web và quản trị viên hệ thống có thể bảo vệ trang web của họ và thúc đẩy một môi trường trực tuyến lành mạnh hơn tập trung vào trải nghiệm của người dùng.

6. Trình thu thập dữ liệu web AI đang làm cho Internet trở nên hỗn loạn

Là người hiểu rõ sức mạnh của AI và đã sử dụng rộng rãi trong các dự án của riêng mình, tôi biết AI có thể hữu ích như thế nào. Tuy nhiên, luôn có điều xấu đi kèm với điều tốt. Trình thu thập dữ liệu web AI là dấu hiệu của một mạng internet đang xuống cấp. Các tác nhân này thu thập và phân tích dữ liệu, sau đó sử dụng dữ liệu đó để phát triển các bài viết chung chung, vô ích, có vẻ thú vị trên bề mặt nhưng không mang lại lợi ích thực sự nào cho chúng ta, những người đọc.

Cuộc chiến giữa quản trị viên hệ thống và trình thu thập dữ liệu web AI có thể là cuộc chiến quan trọng nhất của internet hiện đại, nhưng ít người nhìn thấy hoặc nghe về nó. Điều này thậm chí có thể lớn hơn YouTube và cuộc đấu tranh chống lại trình chặn quảng cáo. Là một người dùng internet nhiệt thành, tôi hy vọng quản trị viên hệ thống sẽ chiến thắng và tôi có thể quay lại đọc các bài viết thú vị do người thật viết.