Đây là một bước tiến lớn trong lĩnh vực AI, hứa hẹn giảm thiểu sự can thiệp của con người vào quá trình đào tạo và phát triển của AI. Với STE, Meta đang đặt nền móng cho một kỷ nguyên mới trong công nghệ AI, khi các mô hình có thể tự cải thiện mà không cần đến lượng lớn sự hỗ trợ từ các chuyên gia.
Trước đây, hầu hết các mô hình AI phải dựa vào việc học tăng cường từ phản hồi của con người (Reinforcement Learning from Human Feedback - RLHF). Điều này đòi hỏi các chuyên gia phải cung cấp phản hồi, gắn nhãn dữ liệu và xác minh câu trả lời cho các câu hỏi phức tạp. Quy trình này không chỉ tốn kém mà còn hạn chế tính hiệu quả, vì nó phụ thuộc nhiều vào lượng lớn tài nguyên nhân lực để huấn luyện mô hình.
STE, công nghệ mới của Meta, vượt qua hạn chế này bằng cách cho phép AI tự học hỏi và đánh giá chính những gì nó thu thập được. Thay vì chờ phản hồi từ con người, AI có thể tự phân tích và rút ra những đánh giá về hiệu quả của các quyết định và câu trả lời của mình. Mô hình này sử dụng kỹ thuật "chuỗi suy nghĩ" – phương pháp chia nhỏ các vấn đề phức tạp thành các bước logic đơn giản hơn, giúp mô hình có thể tự kiểm tra và cải thiện độ chính xác của phản hồi.
Jason Weston, một thành viên trong nhóm nghiên cứu của Meta, giải thích: “Chúng tôi đang hướng đến một tương lai khi mà AI có thể tự kiểm tra và học hỏi từ chính công việc của mình, thay vì phụ thuộc quá nhiều vào con người.”
Công nghệ STE đặc biệt có giá trị trong các lĩnh vực yêu cầu độ chính xác cao như khoa học, lập trình và toán học. Với việc chia nhỏ vấn đề thành từng bước logic, AI có thể tăng cường độ chính xác của câu trả lời. Đối với các lĩnh vực như khoa học hay lập trình, việc giảm thiểu lỗi là cực kỳ quan trọng. Bằng cách tự động kiểm tra, STE có thể mang lại những phân tích tin cậy và đáng giá hơn cho người dùng.
Meta cũng không phải công ty duy nhất đang nghiên cứu về AI tự học hỏi. Các tập đoàn lớn như Google và Anthropic cũng đang đầu tư phát triển AI học từ phản hồi. Tuy nhiên, đến thời điểm này, Meta là công ty đầu tiên công bố chính thức các mô hình AI tự đánh giá học hỏi ra công chúng.