1. Xây dựng và quản lý hệ thống tích hợp dữ liệu (Data Pipelines):Thiết kế, triển khai và tối ưu hóa các quy trình ETL (Extract, Transform, Load) và ELT (Extract, Load, Transform) để chuyển đổi dữ liệu từ nhiều nguồn khác nhau. Làm việc với đa dạng các nguồn dữ liệu:Cơ sở dữ liệu quan hệ (SQL) như Oracle, PostgreSQL, MySQL,...Cơ sở dữ liệu NoSQL: Elasticsearch, Redis, Cassandra...APIs: RESTful APIs, GraphQL...Nguồn dữ liệu dạng file: CSV, JSON, Parquet,...Nguồn dữ liệu streaming (thời gian thực): Kafka, Pub/Sub... ·Sử dụng các công cụ điều phối (orchestration tools) như Apache Nifi, Apache Airflow để lên lịch và tự động hóa các pipeline.Giám sát, xử lý sự cố và đảm bảo độ tin cậy, tính sẵn sàng và hiệu suất của các pipeline.2. Xử lý, làm giàu và trình diễn dữ liệu:Phát triển các logic chuyển đổi dữ liệu phức tạp bằng Scala, Python, SQL hoặc Spark, Flink để làm sạch, chuẩn hóa và định hình lại dữ liệu thô.Thực hiện các kỹ thuật làm sạch dữ liệu (data cleaning): xử lý dữ liệu thiếu (missing values), trùng lặp (duplicates), sai định dạng,..Xây dựng các quy trình làm giàu dữ liệu (data enrichment) bằng cách kết hợp dữ liệu từ nhiều nguồn khác nhau để tạo ra các trường thông tin mới có giá trị hơn.Thiết kế và xây dựng các bảng dữ liệu (data mart), kho dữ liệu (data warehouse) hoặc các API dữ liệu phục vụ nhu cầu truy xuất, phân tích, báo cáo bằng Trino, Superset,...Đảm bảo chất lượng và tính toàn vẹn của dữ liệu trong suốt quá trình xử lý.3. Quản lý hạ tầng và kiến trúc dữ liệu:Làm việc với các nền tảng dữ liệu hiện đại như Data Warehouse (StarRocks, ClickHouse) và Data Lake (S3, Iceberg).Phối hợp với đội ngũ DevOps để triển khai và quản lý hạ tầng dữ liệu trên nền tảng Kubernetes.Tham gia vào việc thiết kế mô hình dữ liệu (data modeling) và kiến trúc kho dữ liệu để tối ưu hóa cho việc truy vấn và phân tích.4. Hợp tác và hỗ trợ:Làm việc chặt chẽ với nhóm Data Scientist và Data Analyst để hiểu rõ yêu cầu và cung cấp dữ liệu chất lượng cao, đáp ứng đúng nhu cầu.Viết tài liệu kỹ thuật rõ ràng cho các pipeline và quy trình dữ liệu đã xây dựng.Tuân thủ các best practice về phát triển phần mềm (version control với Git, CI/CD, code review).