Dữ liệu mở tiếng Việt trở thành mạch nguồn nuôi dưỡng trí tuệ nhân tạo Việt

Ông Võ Xuân Hoài, Phó giám đốc Trung tâm Đổi mới sáng tạo Quốc gia (NIC). Ảnh: Linh Nguyễn

“Nhiên liệu” cho trí tuệ nhân tạo

Trong thế giới công nghệ, dữ liệu được ví như dầu mỏ của kỷ nguyên số, nếu không có nhiên liệu ấy, trí tuệ nhân tạo (AI) chỉ là cỗ máy trống rỗng.

Nhận thức rõ điều đó, trong khuôn khổ Ngày hội Đổi mới sáng tạo Quốc gia và Triển lãm quốc tế Đổi mới sáng tạo Việt Nam 2025 diễn ra tại Hà Nội, Tập đoàn Meta, Trung tâm Đổi mới sáng tạo Quốc gia (NIC) và Tổ chức AI for Vietnam đã phối hợp tổ chức hội thảo “Xây dựng bộ dữ liệu mở cho tiếng Việt phục vụ nghiên cứu và ứng dụng AI”.

Tại đây, các bên chính thức ra mắt phiên bản thử nghiệm nền tảng ViGen, được coi là dấu mốc quan trọng trong hành trình hợp tác phát triển AI. Với mục tiêu cung cấp nguồn dữ liệu tiếng Việt mở, chuẩn hóa và chất lượng cao, sáng kiến này kỳ vọng trở thành “nhiên liệu sạch” để cộng đồng nghiên cứu và ứng dụng AI tại Việt Nam bứt phá mạnh mẽ trong những năm tới.

Ông Võ Xuân Hoài, Phó giám đốc NIC cho rằng: “AI mà không có dữ liệu thì chẳng khác nào động cơ thiếu năng lượng. Việt Nam cần một bộ dữ liệu tiếng Việt mở để tất cả cùng sử dụng, từ doanh nghiệp, startup cho tới tổ chức nghiên cứu trong và ngoài nước.”

Khác với nhiều dự án dữ liệu thường khép kín, ViGen ngay từ khi ra mắt đã được định hình như một không gian cộng tác mở. Người dùng được xác thực qua VNeID có thể đóng góp dữ liệu, khai thác tài nguyên để huấn luyện mô hình, hoặc tham gia đánh giá chất lượng. Cơ chế thi đua và khen thưởng được tích hợp để khuyến khích mọi cá nhân, tổ chức cùng chung tay xây dựng kho dữ liệu Việt vì người Việt.

Điểm đặc biệt của ViGen không nằm ở con số hàng chục tỷ token dữ liệu hay hàng nghìn mẫu đánh giá, mà ở triết lý mọi thứ được phát hành dưới giấy phép cho phép cộng đồng khai thác cả thương mại, miễn là ghi nhận nguồn. Điều này biến ViGen thành “tài sản chung” của cả hệ sinh thái, chứ không phải tài sản riêng của một tập đoàn hay viện nghiên cứu.

Ông Philip Chua, Giám đốc Chính sách công và Sản phẩm khu vực châu Á - Thái Bình Dương của Meta khẳng định: “Chúng tôi tin rằng AI mã nguồn mở sẽ mở rộng khả năng tiếp cận công nghệ tiên tiến. Với ViGen, Việt Nam có cơ hội tạo ra các giải pháp AI thực sự am hiểu văn hóa, ngôn ngữ và nhu cầu của người Việt.”

Với việc ra mắt phiên bản thử nghiệm đầu tiên của nền tảng ViGen, các chuyên gia cũng nhấn mạnh, sáng kiến sẽ trực tiếp hỗ trợ Chiến lược quốc gia về nghiên cứu, phát triển và ứng dụng Trí tuệ nhân tạo đến năm 2030, cũng như góp phần quan trọng trong việc phát triển các Mô hình ngôn ngữ lớn tiếng Việt được xác định là sản phẩm công nghệ chiến lược theo Quyết định số 1131 của Thủ tướng Chính phủ. Điều này góp phần định vị AI là động lực then chốt cho tăng trưởng kinh tế và chuyển đổi số.

Thông qua việc phát triển các bộ dữ liệu mở tiếng Việt, quy mô lớn và chất lượng cao phục vụ huấn luyện và đánh giá AI, Dự án ViGen bảo đảm sự phát triển AI tại Việt Nam phù hợp với giá trị văn hóa, chuẩn mực đạo đức, đồng thời xây dựng một hệ sinh thái AI mở một cách có trách nhiệm và gắn với bối cảnh địa phương.

Bà Mai Hồng Hạnh, Đồng sáng lập kiêm CTO của AI for Vietnam, nhìn nhận: “Thế hệ trẻ Việt Nam có tài năng và khát vọng. Quan trọng hơn, chính quyền các cấp từ trung ương tới địa phương đều đã sẵn sàng cho chuyển đổi số và ứng dụng AI. ViGen chính là mảnh ghép còn thiếu để biến khát vọng ấy thành hiện thực.”

Lộ trình ba năm phát triển

Theo kế hoạch, ViGen được triển khai trong lộ trình ba năm. Năm 2025 là giai đoạn đặt nền móng với bộ dữ liệu Vi-Primer, khung đánh giá ban đầu và nền tảng thử nghiệm. Sang năm 2026, dự án sẽ tinh chỉnh dữ liệu, bổ sung công cụ cho lập trình viên, tổ chức các cuộc thi hackathon cấp quốc gia để thúc đẩy sáng tạo. Đến 2027, ViGen được nâng cấp thành hệ sinh thái dữ liệu, công cụ toàn diện cho doanh nghiệp và tổ chức ứng dụng AI.

Song song, Meta cũng triển khai hàng loạt chương trình hỗ trợ: quỹ Llama Grants cho startup, hội thảo đào tạo doanh nghiệp nhỏ và vừa, phổ cập kiến thức AI trong cộng đồng. Trong giáo dục, Meta đã bắt tay với Đại học Khoa học Xã hội & Nhân văn Hà Nội để xây dựng giáo trình AI quốc gia. Cuối năm nay, cùng với STEAM for Vietnam, Vietnet-ICT và Hocmai, Meta sẽ thử nghiệm trợ lý học tập ảo sử dụng mô hình Llama nhằm hỗ trợ giáo viên trung học.

Hội thảo “Xây dựng bộ dữ liệu mở cho tiếng Việt phục vụ nghiên cứu và ứng dụng trí tuệ nhân tạo”.

Những hoạt động này cho thấy ViGen không phải một dự án rời rạc, mà là hạt nhân trong một chiến lược dài hơi để đưa AI vào đời sống kinh tế - xã hội.

Một trong những điểm được giới chuyên gia nhấn mạnh là ViGen không chỉ dừng ở “mở”, mà còn hướng tới mở có trách nhiệm. Dữ liệu đưa vào hệ thống phải qua xử lý, lọc nhiễu và tuân thủ quy định pháp lý của Việt Nam. Mọi hoạt động đóng góp đều gắn với tài khoản định danh, tránh tình trạng khai thác vô tội vạ hoặc vi phạm bản quyền.

Điều này giúp ViGen vừa tận dụng sức mạnh cộng đồng, vừa bảo đảm yếu tố an toàn và minh bạch. Một bộ dữ liệu mở mà không kiểm soát sẽ gây ra rủi ro lớn. Nhưng một bộ dữ liệu mở có trách nhiệm lại là nền tảng cho cả hệ sinh thái.

Việc Việt Nam chủ động xây dựng bộ dữ liệu tiếng Việt quy mô lớn còn mang ý nghĩa địa chính trị. Trong khi nhiều quốc gia mới chỉ sử dụng dữ liệu tiếng Anh để huấn luyện mô hình, Việt Nam đã chọn con đường riêng: bảo tồn và phát triển ngôn ngữ của mình trong không gian số.

Nếu thành công, ViGen sẽ giúp Việt Nam theo kịp xu thế, định hình những chuẩn mực mới cho AI hiểu và phản ánh đúng bản sắc văn hóa Việt. Đây cũng là lợi thế cạnh tranh để các doanh nghiệp công nghệ trong nước bước ra thị trường toàn cầu với sản phẩm “Make in Vietnam”.

Tại hội thảo, các chuyên gia cũng nhận định, muốn đi đường dài với AI, Việt Nam không thể đi tay không, mà phải xây dựng nguồn dữ liệu riêng, chuẩn hóa và sẵn sàng cho mọi ứng dụng. Sự đồng hành giữa Nhà nước, doanh nghiệp và cộng đồng hứa hẹn tạo nền tảng để hệ sinh thái AI Việt phát triển nhanh hơn, hướng tới việc định vị bản thân trên bản đồ công nghệ thế giới.

Trong giai đoạn đầu tiên tính đến tháng 10 năm 2025, dự án ViGen công bố 3 kết quả đột phá:

1. Dự án ViGen ra mắt Vi-Primer 1.0, bộ dữ liệu mở tiền huấn luyện (pre-training) tiếng Việt lớn nhất từ trước đến nay. Bộ dữ liệu này được phát hành theo giấy phép ODC-By 1.0, cho phép cộng đồng tự do sử dụng, chia sẻ và phát triển cho mọi mục đích, kể cả thương mại, với điều kiện có ghi nhận nguồn.

2. ViGen giới thiệu bộ 5 Khung đánh giá được thiết kế chuyên sâu để đo lường và đánh giá toàn diện năng lực của các mô hình AI tiếng Việt. Với 4.020 mẫu đánh giá được xây dựng công phu, các bộ tiêu chuẩn này kiểm tra AI trên nhiều phương diện: Từ kiến thức chuyên sâu, khả năng lập trình, tư duy logic, cho đến sự an toàn, mức độ am hiểu văn hóa và các sắc thái ngôn ngữ đặc trưng của người Việt.

3. Dự án chính thức ra mắt nền tảng ViGen phiên bản thử nghiệm. Đây là một không gian hợp tác mở, nơi người dùng (được xác thực qua VNeID) có thể trực tiếp đóng góp dữ liệu, sử dụng tài nguyên để huấn luyện mô hình, cũng như kiểm tra và đánh giá chất lượng AI.

Linh Nguyễn
baodautu.vn