Khoa học Dữ liệu - Data Science
120
79 LƯỢT XEM
NỘI DUNG MÔN HỌC
Chương trình cung cấp cho học viên kiến thức toàn diện và kỹ năng thực hành trong lĩnh vực khoa học dữ liệu. Khóa học bao gồm các chủ đề từ cơ bản đến nâng cao, bao gồm thu thập và xử lý dữ liệu, khai phá dữ liệu, học máy, học sâu, xử lý ngôn ngữ tự nhiên, và xử lý dữ liệu lớn.
Thời lượng: 120 giờ
Sau khi hoàn thành khóa học, học viên có khả năng:
- Trang bị cho học viên kiến thức toàn diện và kỹ năng thực hành trong lĩnh vực khoa học dữ liệu.
- Phát triển khả năng áp dụng các kỹ thuật tiên tiến trong xử lý, phân tích và khai thác dữ liệu lớn.
- Nâng cao kỹ năng sử dụng các công cụ và framework hiện đại trong machine learning và deep learning.
- Trang bị kiến thức về triển khai và quản lý các dự án khoa học dữ liệu trong môi trường thực tế.
- Phát triển tư duy phân tích và khả năng giải quyết vấn đề phức tạp bằng cách sử dụng dữ liệu.
- Nâng cao nhận thức về các vấn đề đạo đức trong khoa học dữ liệu và AI.
- Học viên sẽ được cấp chứng nhận hoàn tất khóa học theo quy định của ITSTARVN.
Thu thập và xử lý dữ liệu (24 giờ)
- Phương pháp thu thập dữ liệu (6 giờ)
- Web scraping với BeautifulSoup và Scrapy
- Sử dụng APIs (RESTful và GraphQL)
- Kết nối và truy xuất dữ liệu từ các loại cơ sở dữ liệu (SQL và NoSQL)
- Thực hành: Thu thập dữ liệu từ một trang web thương mại điện tử
- Xử lý dữ liệu thô và làm sạch dữ liệu (6 giờ)
- Kỹ thuật xử lý dữ liệu với Pandas
- Chuẩn hóa và mã hóa dữ liệu
- Xử lý dữ liệu văn bản, số và categorical
- Thực hành: Làm sạch một bộ dữ liệu thực tế
- Xử lý dữ liệu thiếu và outliers (6 giờ)
- Phương pháp phát hiện dữ liệu thiếu
- Kỹ thuật điền giá trị thiếu: mean, median, mode, KNN imputer
- Phát hiện outliers với phương pháp thống kê và học máy
- Xử lý outliers: loại bỏ, biến đổi, winsorization
- Thực hành: Xử lý dữ liệu thiếu và outliers trong bộ dữ liệu y tế
- Xử lý dữ liệu mất cân bằng và Feature Engineering (6 giờ)
- Kỹ thuật xử lý dữ liệu mất cân bằng: oversampling, undersampling, SMOTE
- Feature scaling: standardization, normalization
- Feature creation: polynomial features, interaction features
- Feature selection: filter methods, wrapper methods, embedded methods
- Thực hành: Xử lý dữ liệu mất cân bằng trong bài toán phát hiện gian lận
Khai phá dữ liệu và phân tích nâng cao (20 giờ)
- Khai phá dữ liệu văn bản (6 giờ)
- Tiền xử lý văn bản: tokenization, stemming, lemmatization
- Biểu diễn văn bản: Bag of Words, TF-IDF, Word Embeddings
- Topic Modeling với LDA
- Sentiment Analysis
- Thực hành: Phân tích sentiment từ đánh giá sản phẩm
- Phân tích mạng xã hội (4 giờ)
- Biểu diễn mạng xã hội bằng đồ thị
- Các metrics trong phân tích mạng: centrality, clustering coefficient
- Phát hiện cộng đồng trong mạng xã hội
- Thực hành: Phân tích mạng xã hội Twitter
- Phân tích chuỗi thời gian nâng cao (6 giờ)
- Decomposition: trend, seasonality, residuals
- ARIMA và SARIMA models
- Prophet for forecasting
- Thực hành: Dự báo doanh số bán hàng
- Phân tích dữ liệu không gian và Association Rule Mining (4 giờ)
- Visualization của dữ liệu không gian với GeoPandas
- Spatial autocorrelation
- Apriori algorithm cho Association Rule Mining
- Thực hành: Phân tích dữ liệu địa lý và tìm quy luật mua sắm
Học sâu và ứng dụng (28 giờ)
- Neural Networks cơ bản (6 giờ)
- Kiến trúc của Neural Network
- Activation functions, loss functions, optimizers
- Backpropagation và gradient descent
- Thực hành: Xây dựng NN đơn giản với TensorFlow/Keras
- Convolutional Neural Networks (8 giờ)
- Kiến trúc CNN: convolutional layers, pooling layers, fully connected layers
- Transfer Learning với pre-trained models (VGG, ResNet)
- Data augmentation cho Computer Vision
- Thực hành: Phân loại hình ảnh với CNN
- Recurrent Neural Networks và LSTM (8 giờ)
- Kiến trúc RNN và LSTM
- Bidirectional RNNs
- Seq2Seq models
- Thực hành: Dự báo chuỗi thời gian với LSTM
- Generative Adversarial Networks (6 giờ)
- Kiến trúc GAN: Generator và Discriminator
- Training GANs
- Ứng dụng của GANs: image generation, style transfer
- Thực hành: Tạo hình ảnh giả với DCGAN
Xử lý ngôn ngữ tự nhiên (NLP) (16 giờ)
- Tiền xử lý văn bản và Word Embeddings (4 giờ)
- Advanced text preprocessing techniques
- Word2Vec, GloVe, FastText
- Contextual embeddings: ELMo, BERT
- Thực hành: Tạo và visualize word embeddings
- Phân loại văn bản và phân tích cảm xúc (4 giờ)
- Phân loại văn bản với deep learning
- Fine-tuning BERT cho phân loại văn bản
- Aspect-based sentiment analysis
- Thực hành: Xây dựng hệ thống phân loại chủ đề và phân tích cảm xúc
- Mô hình ngôn ngữ và sinh văn bản (4 giờ)
- N-gram models
- Neural language models
- Text generation với RNNs và Transformers
- Thực hành: Fine-tuning GPT-2 cho sinh văn bản
- Dịch máy và chatbots (4 giờ)
- Seq2Seq models cho dịch máy
- Attention mechanism
- Xây dựng chatbot với Rasa
- Thực hành: Tạo một chatbot đơn giản
Big Data và Hệ thống phân tán (16 giờ)
- Giới thiệu về Big Data (2 giờ)
- Định nghĩa và đặc điểm của Big Data (Volume, Velocity, Variety)
- Các thách thức trong xử lý Big Data
- Kiến trúc lambda và kappa
- Apache Hadoop và MapReduce (4 giờ)
- Kiến trúc Hadoop: HDFS, YARN
- Lập trình MapReduce
- Hadoop ecosystem: Hive, HBase
- Thực hành: Chạy job MapReduce trên cluster Hadoop
- Apache Spark (6 giờ)
- RDDs và DataFrames
- Spark SQL
- Spark Streaming
- MLlib cho machine learning trên big data
- Thực hành: Phân tích dữ liệu lớn với PySpark
- Hệ thống lưu trữ phân tán và xử lý dữ liệu streaming (4 giờ)
- NoSQL databases: Cassandra, MongoDB
- Apache Kafka cho xử lý dữ liệu streaming
- Thực hành: Xây dựng pipeline xử lý dữ liệu real-time với Kafka và Spark Streaming
Triển khai mô hình và MLOps (12 giờ)
- Đóng gói và triển khai mô hình (4 giờ)
- Serialization của mô hình machine learning
- RESTful API với Flask
- Containerization với Docker
- Thực hành: Đóng gói và triển khai mô hình ML như một API
- CI/CD cho dự án Data Science (4 giờ)
- Version control cho data và models
- Automated testing cho ML pipelines
- Continuous integration và deployment
- Thực hành: Thiết lập CI/CD pipeline với Jenkins hoặc GitLab CI
- Monitoring và quản lý hiệu suất mô hình (4 giờ)
- Logging và monitoring cho ML systems
- Detecting model drift
- A/B testing cho mô hình ML
- Thực hành: Thiết lập hệ thống monitoring cho mô hình ML
- Đạo đức trong khoa học dữ liệu và AI (4 giờ)
- Quyền riêng tư và bảo mật dữ liệu: GDPR, CCPA
- Bias và fairness trong mô hình AI: định nghĩa và đo lường
- Interpretable AI: LIME, SHAP
- Case studies về các vấn đề đạo đức trong AI
/* Nội dung chương trình có thể thay đổi theo yêu cầu đào tạo của Doanh nghiệp */
------------------------------------