Dữ liệu Lớn - Big Data
60
118 LƯỢT XEM
NỘI DUNG MÔN HỌC
Chương trình cung cấp kiến thức và kỹ năng toàn diện về Big Data, gồm cả lý thuyết và thực hành, với trọng tâm là các công nghệ và framework Big Data phổ biến như Hadoop, Spark, và Kafka. Học viên sẽ học cách thiết kế, triển khai và quản lý các hệ thống xử lý dữ liệu lớn, cũng như áp dụng các kỹ thuật phân tích dữ liệu tiên tiến trên các bộ dữ liệu lớn.
Thời lượng: 60 giờ
Sau khi hoàn thành khóa học, học viên có khả năng:
- Hiểu sâu về các khái niệm, công nghệ và framework trong lĩnh vực Big Data.
- Thành thạo trong việc sử dụng các công cụ và nền tảng Big Data phổ biến.
- Phát triển kỹ năng xử lý và phân tích dữ liệu lớn theo thời gian thực và theo batch.
- Nắm vững các kỹ thuật lưu trữ, xử lý và truy vấn dữ liệu phân tán.
- Áp dụng kiến thức Big Data vào các bài toán thực tế trong Data Science.
- Học viên sẽ được cấp chứng nhận hoàn tất khóa học theo quy định của ITSTARVN.
Giới thiệu về Big Data (4 giờ)
- Định nghĩa và đặc điểm của Big Data (5V: Volume, Velocity, Variety, Veracity, Value)
- Các thách thức và cơ hội trong xử lý Big Data
- Kiến trúc Big Data: Lambda và Kappa
- Các công nghệ và framework Big Data phổ biến
Hadoop Ecosystem (12 giờ)
- Hadoop Distributed File System (HDFS) (3 giờ)
- Kiến trúc và nguyên lý hoạt động của HDFS
- Thực hành: Cài đặt và cấu hình Hadoop cluster
- MapReduce Programming Model (4 giờ)
- Nguyên lý MapReduce
- Viết chương trình MapReduce với Python (MRJob)
- Thực hành: Phân tích log files với MapReduce
- YARN (Yet Another Resource Negotiator) (2 giờ)
- Kiến trúc và vai trò của YARN trong Hadoop ecosystem
- Hive và Impala (3 giờ)
- Sử dụng Hive để truy vấn dữ liệu lớn với HiveQL
- So sánh Hive và Impala
- Thực hành: Phân tích dữ liệu bán hàng với Hive
Apache Spark (16 giờ)
- Giới thiệu Spark và RDD (Resilient Distributed Datasets) (3 giờ)
- Kiến trúc Spark
- Các operations trên RDD: transformations và actions
- Spark SQL và DataFrames (4 giờ)
- Làm việc với structured data trong Spark
- Thực hành: Phân tích dữ liệu với Spark SQL
- Spark Streaming (3 giờ)
- Xử lý dữ liệu streaming với Spark
- Thực hành: Phân tích dữ liệu Twitter real-time
- MLlib (Machine Learning Library) (4 giờ)
- Các thuật toán Machine Learning trong Spark
- Thực hành: Xây dựng hệ thống gợi ý sản phẩm với Spark MLlib
- GraphX (2 giờ)
- Xử lý và phân tích dữ liệu đồ thị với Spark GraphX
NoSQL Databases cho Big Data (8 giờ)
- Apache Cassandra (4 giờ)
- Kiến trúc và mô hình dữ liệu của Cassandra
- CQL (Cassandra Query Language)
- Thực hành: Xây dựng hệ thống lưu trữ time-series data với Cassandra
- Apache HBase (4 giờ)
- Column-oriented data model
- HBase shell và API
- Thực hành: Xây dựng hệ thống lưu trữ và truy xuất dữ liệu lớn với HBase
Stream Processing (8 giờ)
- Apache Kafka (4 giờ)
- Kiến trúc và concepts của Kafka
- Producers, Consumers, và Kafka Streams
- Thực hành: Xây dựng hệ thống xử lý log real-time với Kafka
- Apache Flink (4 giờ)
- Stream processing với Flink
- Windowing và Time handling trong Flink
- Thực hành: Phát hiện anomaly real-time với Flink
Big Data Visualization (4 giờ)
- Các thách thức trong việc visualize Big Data
- Công cụ visualize Big Data: Tableau, Apache Superset
- Thực hành: Tạo dashboard cho dữ liệu lớn với Apache Superset
Quản lý và Bảo mật Big Data (4 giờ)
- Data Governance trong môi trường Big Data
- Bảo mật và quyền riêng tư trong Big Data
- Compliance và regulations (GDPR, CCPA)
Dự án tổng hợp (4 giờ)
- Xây dựng một pipeline Big Data end-to-end
- Từ thu thập dữ liệu đến phân tích và visualize kết quả
/* Nội dung chương trình có thể thay đổi theo yêu cầu đào tạo của Doanh nghiệp */
------------------------------------