Mục tiêu: Triển khai, vận hành và đảm bảo an ninh cho toàn bộ hệ thống công nghệ thông tin; bảo đảm hệ thống hoạt động ổn định, an toàn, đạt SLO/SLA; chủ động phát hiện, xử lý và phòng ngừa sự cố; huấn luyện và hỗ trợ các thành viên trong team. Phạm vi: Ứng viên có thể thiên về SRE, SecOps hoặc kết hợp cả hai. Vai trò sẽ được phân bổ theo năng lực và kinh nghiệm thực tế. 1. Trách nhiệm chính Vận hành và tối ưu hệ thống, đảm bảo tính sẵn sàng cao & an toàn, đáp ứng SLO/SLA. Phát hiện sớm và xử lý các cảnh báo, sự cố công nghệ, đảm bảo MTTR cam kết. Viết & cập nhật SOP, runbook, postmortem. Tự động hóa quy trình vận hành, giám sát, xử lý sự cố. Hướng dẫn Tier-1/2 trong quá trình vận hành, giám sát, xử lý cảnh báo. Triển khai observability end-to-end (metrics, logs, traces); tối ưu hiệu suất, lưu trữ và chi phí. Theo dõi SLI/SLO; báo cáo và kích hoạt hành động khi error budget xuống thấp. Thiết kế, vận hành CI/CD & release pipeline. Chaos testing, capacity planning, performance tuning. Triển khai & vận hành k8s, microservices.