Lỗi tìm kiếm Facebook: Gõ từ khóa 'v...' lại ra nội dung bẩn, thuật toán Meta bị qua mặt
Lỗi tìm kiếm Facebook: Gõ 'v...' ra nội dung bẩn, Meta bị qua mặt

Những ngày qua, cộng đồng người dùng Facebook tại Việt Nam và nhiều nơi trên thế giới đã trải qua một phen ngỡ ngàng xen lẫn bức xúc khi sử dụng công cụ tìm kiếm của nền tảng Meta. Thay vì hiển thị các xu hướng hay bài đăng thịnh hành khi gõ từ khóa phổ biến là "v..." (đã viết tắt), hệ thống lại trả về một danh sách dài các video có nội dung nhạy cảm. Đáng lo ngại hơn, trên phiên bản ứng dụng di động, những video này tự động phát kèm âm thanh ngay khi xuất hiện, gây ra không ít tình huống khó xử cho người dùng nơi công sở hoặc trước mặt trẻ nhỏ.

Sự cố lặp lại: Từ khóa đơn lẻ cũng gây họa

Đây không phải lần đầu tiên công cụ tìm kiếm của Meta để lộ khoảng trống chết người này. Cuối năm ngoái, một sự cố tương tự từng xảy ra khi người dùng chỉ cần gõ các ký tự đơn lẻ như "b", "c" hay "x" là thế giới ngầm của những nội dung người lớn lập tức hiển thị công khai. Việc một hệ thống tìm kiếm được đầu tư hàng tỷ USD mỗi năm của Meta liên tục "thất thủ" trước các từ khóa cơ bản đang dấy lên những hoài nghi lớn về năng lực kiểm soát nội dung của mạng xã hội lớn nhất hành tinh.

Kỹ thuật "cloaking": Treo đầu dê, bán thịt chó

Thoạt nhìn, nhiều người cho rằng đây là lỗi của Facebook. Tuy nhiên, dưới góc độ công nghệ nền tảng, câu chuyện thực tế phức tạp hơn nhiều. Trái với suy nghĩ rằng các video nhạy cảm lọt qua bộ lọc nhờ thuật toán mã hóa siêu việt, thực tế giới spammer sử dụng thủ thuật tương đối thủ công nhưng cực kỳ hiệu quả đối với hệ thống trí tuệ nhân tạo (AI) kiểm duyệt. Phương thức phổ biến nhất hiện nay là kỹ thuật "cloaking" (che mắt thuật toán) kết hợp với việc tạo các đoạn giới thiệu giả.

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Hệ thống kiểm duyệt tự động của Facebook quét video dựa trên các khung hình đầu tiên và các mốc thời gian ngẫu nhiên để xác định vi phạm tiêu chuẩn cộng đồng. Nắm được điểm yếu này, các đối tượng phát tán nội dung bẩn đã tinh vi lồng ghép một đoạn intro dài từ 5 đến 10 giây ở đầu video với nội dung hoàn toàn lành mạnh, ví dụ như clip hướng dẫn nấu ăn, một meme hài hước hoặc một đoạn phim hoạt hình vui nhộn. Khi AI quét qua phần đầu, nó nhanh chóng gắn nhãn "an toàn" và cho phép xuất bản. Tuy nhiên, ngay sau phần giới thiệu vô hại đó là toàn bộ nội dung người lớn được cắt ghép từ các nguồn không chính thống.

Can thiệp kỹ thuật số và lách thuật toán

Bên cạnh đó, các spammer còn sử dụng kỹ thuật can thiệp kỹ thuật số nhẹ lên video như thay đổi tần số âm thanh, lật ngược khung hình, chèn các lớp mờ (overlay) siêu mỏng hoặc thay đổi dải màu để làm lệch hướng nhận diện của thuật toán so khớp vân tay video (Video Fingerprinting). Bằng cách này, video dù có nội dung người lớn đã bị cấm trước đó vẫn được hệ thống nhận diện như một tệp đa phương tiện hoàn toàn mới và chưa từng vi phạm.

Ngoài ra, việc phụ thuộc vào thuật toán của Meta cũng là điểm yếu chí mạng. Trong kỷ nguyên thuật toán, từ khóa không còn là yếu tố duy nhất quyết định kết quả tìm kiếm. Các nền tảng mạng xã hội hiện đại ngày càng chuyển sang mô hình "tìm kiếm theo mức độ liên quan" thay vì "tìm kiếm theo từ khóa thuần túy". Điều đó đồng nghĩa hệ thống sẽ đánh giá đồng thời hàng loạt tín hiệu như mức độ tương tác, tỷ lệ xem hết video, số lượt chia sẻ, lịch sử hành vi của người dùng và xu hướng đang được lan truyền trên toàn nền tảng.

Banner sau bài viết Pickt — ứng dụng danh sách mua sắm cộng tác với hình minh họa gia đình

Nghịch lý tương tác: Nội dung nhạy cảm được ưu tiên

Chính cơ chế này đã tạo ra một nghịch lý. Nhiều nội dung người lớn thường có tỷ lệ giữ chân người xem rất cao. Người dùng có xu hướng dừng lại lâu hơn, xem kỹ hơn hoặc tương tác nhiều hơn so với các nội dung thông thường. Đối với thuật toán, đây là tín hiệu cho thấy nội dung "hấp dẫn", từ đó được ưu tiên phân phối rộng hơn. Không ít nhà sáng tạo nội dung spam đã nhanh chóng nhận ra điểm yếu này. Họ cố tình gắn các hashtag phổ biến như #v…, #tr…, #ho… hay #fyp vào những video nhạy cảm nhằm tận dụng hệ thống đề xuất và tìm kiếm. Kết quả là khi người dùng tra cứu những từ khóa mang tính đại chúng như "v…", hệ thống có thể trả về các video hoàn toàn không liên quan đến ý nghĩa thực sự của từ khóa đó.

Discovery engine: Cỗ máy khám phá nội dung thay vì tìm kiếm chính xác

Một yếu tố khác nằm ở sự thay đổi trong triết lý vận hành của các mạng xã hội. Trước đây, công cụ tìm kiếm chủ yếu hoạt động giống Google, tập trung vào việc khớp từ khóa. Hiện nay, Facebook, TikTok hay Instagram ngày càng vận hành theo mô hình "discovery engine" - cỗ máy khám phá nội dung. Mục tiêu không phải là tìm chính xác thứ người dùng gõ vào, mà là hiển thị thứ thuật toán cho rằng người dùng có khả năng dành nhiều thời gian nhất để xem. Điều này lý giải vì sao hai người cùng gõ một từ khóa nhưng lại nhận được kết quả hoàn toàn khác nhau. Thuật toán đã được cá nhân hóa dựa trên lịch sử xem video, các trang đã theo dõi, nhóm đã tham gia và hàng trăm tín hiệu hành vi khác.

Thách thức không hồi kết giữa kiểm duyệt và lách thuật toán

Các chuyên gia về nền tảng số cho rằng hiện tượng này phản ánh thách thức ngày càng lớn của các mạng xã hội trong việc cân bằng giữa tăng trưởng tương tác và kiểm soát nội dung. Những thuật toán được tối ưu để giữ chân người dùng thường vô tình tạo lợi thế cho các nội dung gây sốc, kích thích tò mò hoặc đánh vào bản năng của con người. Đó cũng là lý do nhiều nền tảng liên tục phải điều chỉnh hệ thống xếp hạng, tăng cường lọc nội dung nhạy cảm và xử lý các tài khoản spam. Tuy nhiên, cuộc đua giữa thuật toán kiểm duyệt và những người tìm cách lách thuật toán dường như vẫn chưa có hồi kết.

Với người dùng thông thường, việc xuất hiện các video người lớn khi tìm kiếm từ khóa "v…" không hẳn là dấu hiệu tài khoản bị xâm nhập hay Facebook gặp lỗi nghiêm trọng. Trong nhiều trường hợp, đây đơn giản là hệ quả của một hệ sinh thái nội dung nơi mọi nhà sáng tạo đều đang cạnh tranh để giành lấy thứ tài nguyên quý giá nhất trên Internet hiện nay: sự chú ý.