Một số notes rút ra sau khi học course Introduction to Data Engineering tại Coursera
Modern Data Ecosystem là gì?
Morden Data Ecosystem (hệ sinh thái dữ liệu hiện đại) bao gồm một mạng lưới toàn diện của các thực thể liên kết, độc lập và liên tục thay đổi, gồm:
- Dữ liệu được tích hợp từ các nguồn không đồng nhất.
- Các kỹ thuật phân tích và kỹ năng khác nhau để tạo ra thông tin.
- Người, tổ chức, các thành phần liên quan sử dụng và hành động dựa trên các thông tin được tạo ra
- Các công cụ, ứng dụng và cơ sở hạ tầng để lưu trữ, xử lý và phân phối dữ liệu theo yêu cầu.

Key Players trong Modern Data Ecosystem
Những người sử dụng chính của Modern Data Ecosystem, bao gồm Data Engineer, Data Analysts, Data Scientists, Businees Analysts và Businees Intelligent Analysts. Phần dưới sẽ giải thích sơ bộ vai trò và nhiệm vụ của các thành phần này trong Modern Data Ecosystem.
Data Engineer
Data Engineer là những người phát triển và duy trì kiến trúc dữ liệu và đảm bảo dữ liệu sẵn có cho hoạt động kinh doanh và phân tích.
Data Engineer trong Mordern Data Ecosystem có nhiệm vụ trích xuất, tích hợp và tổ chức dữ liệu từ các nguồn không đồng nhất; làm sạch, biến đổi và chuẩn bị dữ liệu; thiết kế, lưu trữ và quản lý dữ liệu trong các kho dữ liệu.
Data Engineer cho phép dữ liệu có thể truy cập trong các định dạng và hệ thống mà các ứng dụng kinh doanh khác nhau cũng như các bên liên quan như Data Analyst và Data Scientist có thể sử dụng.
Một Data Engineer cần có kiến thức tốt về lập trình, kiến thức vững chắc về hệ thống và kiến trúc công nghệ, và hiểu biết sâu về cơ sở dữ liệu quan hệ và các hệ thống lưu trữ phi quan hệ.
Data Analysts
Data Analysts chuyển đổi dữ liệu và con số thành ngôn ngữ đơn giản, để tổ chức có thể đưa ra quyết định.
Data Analysts kiểm tra và làm sạch dữ liệu để tìm ra thông tin chi tiết; xác định mối tương quan, tìm kiếm mẫu và áp dụng các phương pháp thống kê để phân tích và khai thác dữ liệu; và trực quan hóa dữ liệu để diễn giải và trình bày kết quả của phân tích dữ liệu.
Data Analysts là những người trả lời các câu hỏi như “Trải nghiệm tìm kiếm của người dùng trên trang web của chúng ta nói chung là tốt hay xấu” hoặc “Cảm nhận phổ biến của người dùng về các sáng kiến tái thương hiệu của chúng ta” hoặc “Có mối tương quan nào giữa doanh số bán hàng của một sản phẩm và sản phẩm khác không”.
Data Analysts cần có kiến thức tốt về bảng tính, viết truy vấn và sử dụng các công cụ thống kê để tạo biểu đồ và bảng điều khiển. Những nhà phân tích dữ liệu hiện đại cũng cần có một số kỹ năng lập trình. Họ cần có kỹ năng phân tích mạnh mẽ và kỹ năng kể chuyện để truyền đạt thông tin.
Data Scientists
Data Scientists phân tích dữ liệu để tạo ra thông tin hành động và xây dựng mô hình Machine Learning hoặc Deep Learning để huấn luyện trên dữ liệu quá khứ để tạo ra các mô hình dự đoán.
Data Scientists là những người trả lời các câu hỏi như “Tháng tới tôi có khả năng có bao nhiêu người theo dõi trên mạng xã hội mới?” hoặc “Tỷ lệ khách hàng của tôi có khả năng mất cho đối thủ trong quý tới là bao nhiêu phần trăm?” hoặc “Giao dịch tài chính này có phải là bất thường đối với khách hàng này không?”.
Data Scientists cần có kiến thức về Toán học, Thống kê và hiểu biết đáng tin cậy về ngôn ngữ lập trình, cơ sở dữ liệu và xây dựng mô hình dữ liệu. Họ cũng cần có kiến thức về lĩnh vực cụ thể mà họ đang làm việc.
Business Analysts và Business Intelligent Analysts
Business Analysts tận dụng công việc của Data Analysts và Data Scientists để xem xét những tác động có thể xảy ra đối với doanh nghiệp của họ và các hành động mà họ cần thực hiện hoặc đề xuất.
Business Intelligent Analysts (BI Analysts) làm điều tương tự, nhưng tập trung vào các lực lượng thị trường và các yếu tố bên ngoài tác động đến doanh nghiệp của họ. Họ cung cấp các giải pháp thông tin kinh doanh bằng cách tổ chức và giám sát dữ liệu về các chức năng kinh doanh khác nhau và khám phá dữ liệu đó để rút ra thông tin và hành động cải thiện hiệu suất kinh doanh.