Phân tích Dữ liệu - Data Analysis
60
218 LƯỢT XEM
NỘI DUNG MÔN HỌC
Khóa học cung cấp một nền tảng vững chắc về phân tích dữ liệu, tập trung vào các kỹ thuật và công cụ phổ biến trong lĩnh vực Data Science. Học viên sẽ được học cách sử dụng Python và các thư viện như Pandas, Matplotlib để xử lý, phân tích và trực quan hóa dữ liệu, các phương pháp phân tích nâng cao và cách áp dụng chúng vào các bài toán thực tế.
Thời lượng: 60 giờ
Sau khi hoàn thành khóa học, học viên có khả năng:
- Hiểu rõ về quy trình và các phương pháp phân tích dữ liệu.
- Thành thạo sử dụng các thư viện Python cho phân tích và trực quan hóa dữ liệu.
- Phát triển kỹ năng khám phá, xử lý và phân tích dữ liệu.
- Áp dụng các phương pháp phân tích dữ liệu vào các bài toán thực tế.
- Nâng cao khả năng truyền đạt insights từ dữ liệu thông qua các kỹ thuật trực quan hóa
- Học viên sẽ được cấp chứng nhận hoàn tất khóa học theo quy định của ITSTARVN.
Giới thiệu về phân tích dữ liệu (4 giờ)
- Tổng quan về Data Science và vai trò của phân tích dữ liệu (1 giờ)
- Quy trình phân tích dữ liệu (1 giờ)
- Các loại dữ liệu và cấu trúc dữ liệu (1 giờ)
- Giới thiệu các công cụ và ngôn ngữ cho phân tích dữ liệu (1 giờ)
Thư viện Pandas (12 giờ)
- Giới thiệu về Pandas và cài đặt (1 giờ)
- Cấu trúc dữ liệu trong Pandas: Series và DataFrame (2 giờ)
- Đọc và ghi dữ liệu với Pandas (CSV, Excel, SQL) (2 giờ)
- Indexing, selecting và filtering dữ liệu (2 giờ)
- Xử lý missing data và data cleaning (2 giờ)
- Grouping, aggregation và pivot tables (2 giờ)
- Merge, join và concatenate dữ liệu (1 giờ)
Trực quan hóa dữ liệu (12 giờ)
- Giới thiệu về Matplotlib và Seaborn (1 giờ)
- Các loại biểu đồ cơ bản (line, bar, scatter, histogram) (3 giờ)
- Customizing plots (colors, labels, legends, axes) (2 giờ)
- Subplots và multiple plots (1 giờ)
- Biểu đồ thống kê (box plots, violin plots, swarm plots) (2 giờ)
- Trực quan hóa dữ liệu đa chiều (pair plots, heat maps) (2 giờ)
- Interactive visualization với Plotly (1 giờ)
Các phương pháp phân tích dữ liệu (16 giờ)
- Phân tích thống kê mô tả (2 giờ)
- Phân tích tương quan và hồi quy (3 giờ)
- Phân tích chuỗi thời gian (3 giờ)
- Phân tích nhóm (Clustering) (3 giờ)
- Phân tích thành phần chính (PCA) (2 giờ)
- Kiểm định giả thuyết và A/B testing (3 giờ)
Phân tích rule-based (8 giờ)
- Giới thiệu về rule-based analysis (1 giờ)
- Xây dựng và áp dụng business rules (2 giờ)
- Decision trees cho phân tích dữ liệu (2 giờ)
- Association rule mining (3 giờ)
- Xử lý dữ liệu lớn (4 giờ)
- Giới thiệu về Big Data và các thách thức (1 giờ)
- Xử lý dữ liệu với Dask (2 giờ)
- Giới thiệu về Apache Spark cho phân tích dữ liệu (1 giờ)
Ứng dụng thực tế và Case Studies (4 giờ)
- Case study: Phân tích dữ liệu khách hàng (2 giờ)
- Case study: Phân tích dữ liệu tài chính (2 giờ)
/* Nội dung chương trình có thể thay đổi theo yêu cầu đào tạo của Doanh nghiệp */
------------------------------------