Trong suốt hành trình gần 31 năm tiên phong, MISA tự hào là công ty hàng đầu Việt Nam cung cấp giải pháp chuyển đổi số toàn diện SaaS (Software-as-a-Service) với gần 60 sản phẩm, ứng dụng cho 350.000 khách hàng là cơ quan nhà nước, doanh nghiệp, hộ kinh doanh và 3.5 triệu khách hàng cá nhân tại Việt Nam và 22 quốc gia trên thế giới. MISA vinh dự khi được đồng hành cùng các Bộ, ban, ngành trong chương trình Chuyển đổi số quốc gia, tự động hóa hoạt động quản lý, kinh doanh, giúp nâng cao năng suất và góp phần vào sự phát triển chung của Việt Nam.Với tinh thần "Nỗ lực sáng tạo vì một thế giới thông minh bằng sản phẩm công nghệ trí tuệ Việt", chúng tôi mong muốn được đồng hành cùng bạn, kiến tạo nên những thành tựu đột phá.Vai trò thiết yếu:Thực hiện phân tích, xử lý và chuẩn bị dữ liệu phục vụ huấn luyện/tinh chỉnh các mô hình LLM.Áp dụng các kỹ thuật NLP để làm sạch, chuẩn hóa và biến dữ liệu thô thành dữ liệu chất lượng cao.Đảm bảo dữ liệu phù hợp với yêu cầu kỹ thuật, đáp ứng tiêu chuẩn chất lượng và tuân thủ quy định pháp lý.Phối hợp với Data Engineers, Data Stewards và AI Engineers để bảo đảm dữ liệu huấn luyện được sẵn sàng và tối ưu cho các pipeline pre-training/fine-tuning LLM.Trách nhiệm thiết yếu:Thu thập, tiền xử lý và làm sạch dữ liệu văn bản tiếng Việt từ nhiều nguồn (tài chính, pháp luật, kế toán, quản trị doanh nghiệp…).Áp dụng các kỹ thuật NLP như tokenization, sentence segmentation, deduplication, normalization để chuẩn hóa dữ liệu.Thực hiện đánh giá chất lượng dữ liệu (Data Quality Score, tính đa dạng, tính cân bằng corpus).Xây dựng và duy trì các pipeline xử lý dữ liệu NLP bán tự động phục vụ huấn luyện mô hình.Gắn nhãn dữ liệu ở mức cơ bản hoặc phối hợp với Data Labeling Specialists để đảm bảo tính chính xác và tính nhất quán.Làm việc cùng AI Engineers để kiểm thử dữ liệu đầu vào cho pre-training/fine-tuning, đánh giá tính phù hợp và hiệu quả.Đề xuất cải tiến kỹ thuật nhằm tăng hiệu quả xử lý dữ liệu và tối ưu chi phí.