Khoa học Dữ liệu - Data Science

40 giờ 725 LƯỢT XEM

NỘI DUNG MÔN HỌC

Chương trình cung cấp cho học viên kiến thức toàn diện và kỹ năng thực hành trong lĩnh vực khoa học dữ liệu. Khóa học bao gồm các chủ đề từ cơ bản đến nâng cao, bao gồm thu thập và xử lý dữ liệu, khai phá dữ liệu, học máy, học sâu, xử lý ngôn ngữ tự nhiên, và xử lý dữ liệu lớn.

Thời lượng: 40 giờ

Sau khi hoàn thành khóa học, học viên có khả năng:

Trang bị cho học viên kiến thức toàn diện và kỹ năng thực hành trong lĩnh vực khoa học dữ liệu.
Phát triển khả năng áp dụng các kỹ thuật tiên tiến trong xử lý, phân tích và khai thác dữ liệu lớn.
Nâng cao kỹ năng sử dụng các công cụ và framework hiện đại trong machine learning và deep learning.
Trang bị kiến thức về triển khai và quản lý các dự án khoa học dữ liệu trong môi trường thực tế.
Phát triển tư duy phân tích và khả năng giải quyết vấn đề phức tạp bằng cách sử dụng dữ liệu.
Nâng cao nhận thức về các vấn đề đạo đức trong khoa học dữ liệu và AI.
Học viên sẽ được cấp chứng nhận hoàn tất khóa học theo quy định của ITSTARVN.

Nội dung khóa học

Thu thập và xử lý dữ liệu

Phương pháp thu thập dữ liệu
- Web scraping với BeautifulSoup và Scrapy
- Sử dụng APIs (RESTful và GraphQL)
- Kết nối và truy xuất dữ liệu từ các loại cơ sở dữ liệu (SQL và NoSQL)
- Thực hành: Thu thập dữ liệu từ một trang web thương mại điện tử
Xử lý dữ liệu thô và làm sạch dữ liệu
- Kỹ thuật xử lý dữ liệu với Pandas
- Chuẩn hóa và mã hóa dữ liệu
- Xử lý dữ liệu văn bản, số và categorical
- Thực hành: Làm sạch một bộ dữ liệu thực tế
Xử lý dữ liệu thiếu và outliers
- Phương pháp phát hiện dữ liệu thiếu
- Kỹ thuật điền giá trị thiếu: mean, median, mode, KNN imputer
- Phát hiện outliers với phương pháp thống kê và học máy
- Xử lý outliers: loại bỏ, biến đổi, winsorization
- Thực hành: Xử lý dữ liệu thiếu và outliers trong bộ dữ liệu y tế
Xử lý dữ liệu mất cân bằng và Feature Engineering
- Kỹ thuật xử lý dữ liệu mất cân bằng: oversampling, undersampling, SMOTE
- Feature scaling: standardization, normalization
- Feature creation: polynomial features, interaction features
- Feature selection: filter methods, wrapper methods, embedded methods
- Thực hành: Xử lý dữ liệu mất cân bằng trong bài toán phát hiện gian lận

Khai phá dữ liệu và phân tích nâng cao

Khai phá dữ liệu văn bản
- Tiền xử lý văn bản: tokenization, stemming, lemmatization
- Biểu diễn văn bản: Bag of Words, TF-IDF, Word Embeddings
- Topic Modeling với LDA
- Sentiment Analysis
- Thực hành: Phân tích sentiment từ đánh giá sản phẩm
Phân tích mạng xã hội
- Biểu diễn mạng xã hội bằng đồ thị
- Các metrics trong phân tích mạng: centrality, clustering coefficient
- Phát hiện cộng đồng trong mạng xã hội
- Thực hành: Phân tích mạng xã hội Twitter
Phân tích chuỗi thời gian nâng cao
- Decomposition: trend, seasonality, residuals
- ARIMA và SARIMA models
- Prophet for forecasting
- Thực hành: Dự báo doanh số bán hàng
Phân tích dữ liệu không gian và Association Rule Mining
- Visualization của dữ liệu không gian với GeoPandas
- Spatial autocorrelation
- Apriori algorithm cho Association Rule Mining
- Thực hành: Phân tích dữ liệu địa lý và tìm quy luật mua sắm

Học sâu và ứng dụng

Neural Networks cơ bản
- Kiến trúc của Neural Network
- Activation functions, loss functions, optimizers
- Backpropagation và gradient descent
- Thực hành: Xây dựng NN đơn giản với TensorFlow/Keras
Convolutional Neural Networks (8 giờ)
- Kiến trúc CNN: convolutional layers, pooling layers, fully connected layers
- Transfer Learning với pre-trained models (VGG, ResNet)
- Data augmentation cho Computer Vision
- Thực hành: Phân loại hình ảnh với CNN
Recurrent Neural Networks và LSTM
- Kiến trúc RNN và LSTM
- Bidirectional RNNs
- Seq2Seq models
- Thực hành: Dự báo chuỗi thời gian với LSTM
Generative Adversarial Networks
- Kiến trúc GAN: Generator và Discriminator
- Training GANs
- Ứng dụng của GANs: image generation, style transfer
- Thực hành: Tạo hình ảnh giả với DCGAN

Xử lý ngôn ngữ tự nhiên (NLP)

Tiền xử lý văn bản và Word Embeddings
- Advanced text preprocessing techniques
- Word2Vec, GloVe, FastText
- Contextual embeddings: ELMo, BERT
- Thực hành: Tạo và visualize word embeddings
Phân loại văn bản và phân tích cảm xúc
- Phân loại văn bản với deep learning
- Fine-tuning BERT cho phân loại văn bản
- Aspect-based sentiment analysis
- Thực hành: Xây dựng hệ thống phân loại chủ đề và phân tích cảm xúc
Mô hình ngôn ngữ và sinh văn bản
- N-gram models
- Neural language models
- Text generation với RNNs và Transformers
- Thực hành: Fine-tuning GPT-4 cho sinh văn bản
Dịch máy và chatbots
- Seq2Seq models cho dịch máy
- Attention mechanism
- Xây dựng chatbot với Rasa
- Thực hành: Tạo một chatbot đơn giản

Big Data và Hệ thống phân tán

Giới thiệu về Big Data
- Định nghĩa và đặc điểm của Big Data (Volume, Velocity, Variety)
- Các thách thức trong xử lý Big Data
- Kiến trúc lambda và kappa
Apache Hadoop và MapReduce
- Kiến trúc Hadoop: HDFS, YARN
- Lập trình MapReduce
- Hadoop ecosystem: Hive, HBase
- Thực hành: Chạy job MapReduce trên cluster Hadoop
Apache Spark
- RDDs và DataFrames
- Spark SQL
- Spark Streaming
- MLlib cho machine learning trên big data
- Thực hành: Phân tích dữ liệu lớn với PySpark
Hệ thống lưu trữ phân tán và xử lý dữ liệu streaming
NoSQL databases: Cassandra, MongoDB
- Apache Kafka cho xử lý dữ liệu streaming
- Thực hành: Xây dựng pipeline xử lý dữ liệu real-time với Kafka và Spark Streaming

Triển khai mô hình và MLOps

Đóng gói và triển khai mô hình
- Serialization của mô hình machine learning
- RESTful API với Flask
- Containerization với Docker
- Thực hành: Đóng gói và triển khai mô hình ML như một API
CI/CD cho dự án Data Science (4 giờ)
- Version control cho data và models
- Automated testing cho ML pipelines
- Continuous integration và deployment
- Thực hành: Thiết lập CI/CD pipeline với Jenkins hoặc GitLab CI
Monitoring và quản lý hiệu suất mô hình
Logging và monitoring cho ML systems
- Detecting model drift
- A/B testing cho mô hình ML
- Thực hành: Thiết lập hệ thống monitoring cho mô hình ML
Đạo đức trong khoa học dữ liệu và AI
- Quyền riêng tư và bảo mật dữ liệu: GDPR, CCPA
- Bias và fairness trong mô hình AI: định nghĩa và đo lường
- Interpretable AI: LIME, SHAP
- Case studies về các vấn đề đạo đức trong AI

/* Nội dung chương trình có thể thay đổi theo yêu cầu đào tạo của Doanh nghiệp */

------------------------------------

0909.976.377 | Mrs Thi

admin@itstar.vn

ĐĂNG KÝ HỌC

Khoa học Dữ liệu - Data Science

Khoa học Dữ liệu - Data Science

NỘI DUNG MÔN HỌC

Sau khi hoàn thành khóa học, học viên có khả năng:

Nội dung khóa học

Thu thập và xử lý dữ liệu

Khai phá dữ liệu và phân tích nâng cao

Học sâu và ứng dụng

Xử lý ngôn ngữ tự nhiên (NLP)

Big Data và Hệ thống phân tán

Triển khai mô hình và MLOps

KHÓA HỌC