Dữ liệu Lớn

Dữ liệu Lớn - Big Data

40 giờ 850 LƯỢT XEM

NỘI DUNG MÔN HỌC

Chương trình cung cấp kiến thức và kỹ năng toàn diện về Big Data, gồm cả lý thuyết và thực hành, với trọng tâm là các công nghệ và framework Big Data phổ biến như Hadoop, Spark, và Kafka. Học viên sẽ học cách thiết kế, triển khai và quản lý các hệ thống xử lý dữ liệu lớn, cũng như áp dụng các kỹ thuật phân tích dữ liệu tiên tiến trên các bộ dữ liệu lớn.

Thời lượng: 40 giờ

Sau khi hoàn thành khóa học, học viên có khả năng:

Hiểu sâu về các khái niệm, công nghệ và framework trong lĩnh vực Big Data.
Thành thạo trong việc sử dụng các công cụ và nền tảng Big Data phổ biến.
Phát triển kỹ năng xử lý và phân tích dữ liệu lớn theo thời gian thực và theo batch.
Nắm vững các kỹ thuật lưu trữ, xử lý và truy vấn dữ liệu phân tán.
Áp dụng kiến thức Big Data vào các bài toán thực tế trong Data Science.
Học viên sẽ được cấp chứng nhận hoàn tất khóa học theo quy định của ITSTARVN.

Nội dung khóa học

Giới thiệu về Big Data

Định nghĩa và đặc điểm của Big Data (5V: Volume, Velocity, Variety, Veracity, Value)
Các thách thức và cơ hội trong xử lý Big Data
Kiến trúc Big Data: Lambda và Kappa
Các công nghệ và framework Big Data phổ biến

Hadoop Ecosystem

Hadoop Distributed File System (HDFS)
- Kiến trúc và nguyên lý hoạt động của HDFS
- Thực hành: Cài đặt và cấu hình Hadoop cluster
MapReduce Programming Model
- Nguyên lý MapReduce
- Viết chương trình MapReduce với Python (MRJob)
- Thực hành: Phân tích log files với MapReduce
YARN (Yet Another Resource Negotiator)
- Kiến trúc và vai trò của YARN trong Hadoop ecosystem
Hive và Impala
- Sử dụng Hive để truy vấn dữ liệu lớn với HiveQL
- So sánh Hive và Impala
- Thực hành: Phân tích dữ liệu bán hàng với Hive

Apache Spark

Giới thiệu Spark và RDD (Resilient Distributed Datasets)
- Kiến trúc Spark
- Các operations trên RDD: transformations và actions
Spark SQL và DataFrames
- Làm việc với structured data trong Spark
- Thực hành: Phân tích dữ liệu với Spark SQL
Spark Streaming
- Xử lý dữ liệu streaming với Spark
- Thực hành: Phân tích dữ liệu Twitter real-time
MLlib (Machine Learning Library)
- Các thuật toán Machine Learning trong Spark
- Thực hành: Xây dựng hệ thống gợi ý sản phẩm với Spark MLlib
GraphX
- Xử lý và phân tích dữ liệu đồ thị với Spark GraphX

NoSQL Databases cho Big Data

Apache Cassandra
- Kiến trúc và mô hình dữ liệu của Cassandra
- CQL (Cassandra Query Language)
- Thực hành: Xây dựng hệ thống lưu trữ time-series data với Cassandra
Apache HBase
- Column-oriented data model
- HBase shell và API
- Thực hành: Xây dựng hệ thống lưu trữ và truy xuất dữ liệu lớn với HBase

Stream Processing

Apache Kafka
- Kiến trúc và concepts của Kafka
- Producers, Consumers, và Kafka Streams
- Thực hành: Xây dựng hệ thống xử lý log real-time với Kafka
Apache Flink
- Stream processing với Flink
- Windowing và Time handling trong Flink
- Thực hành: Phát hiện anomaly real-time với Flink

Big Data Visualization

Các thách thức trong việc visualize Big Data
Công cụ visualize Big Data: Tableau, Apache Superset
Thực hành: Tạo dashboard cho dữ liệu lớn với Apache Superset

Quản lý và Bảo mật Big Data

Data Governance trong môi trường Big Data
Bảo mật và quyền riêng tư trong Big Data
Compliance và regulations (GDPR, CCPA)

Dự án tổng hợp

Xây dựng một pipeline Big Data end-to-end
Từ thu thập dữ liệu đến phân tích và visualize kết quả

/* Nội dung chương trình có thể thay đổi theo yêu cầu đào tạo của Doanh nghiệp */

------------------------------------

0909.976.377 | Ms. Thi

admin@itstar.vn

ĐĂNG KÝ HỌC