Tổng hợp các thuật toán trong machine learning
1. Thuật toán Học Giám Sát (Supervised Learning)
📌 Mục tiêu:
-
Dự đoán kết quả đầu ra dựa trên dữ liệu đã gán nhãn.
-
Các bài toán điển hình: Phân loại (Classification) và Hồi quy (Regression).
1.1. Hồi quy (Regression Algorithms)
| Thuật toán | Ứng dụng thực tế | Đặc điểm |
|---|---|---|
| Linear Regression | Dự đoán giá nhà, doanh thu | Quan hệ tuyến tính |
| Polynomial Regression | Dự đoán doanh thu theo thời gian | Quan hệ phi tuyến |
| Ridge Regression | Giảm overfitting trong Linear Regression | Thêm regularization |
| Lasso Regression | Lựa chọn đặc trưng | Thêm regularization |
| Support Vector Regression (SVR) | Dự đoán thời gian giao hàng | Phân tích tuyến tính, phi tuyến |
| Decision Tree Regression | Dự đoán doanh thu theo khu vực | Phân nhánh quyết định |
| Random Forest Regression | Dự đoán giá chứng khoán | Tổ hợp nhiều cây quyết định |
| XGBoost / LightGBM | Dự đoán doanh thu bán hàng | Hiệu suất cao, giảm overfitting |
1.2. Phân loại (Classification Algorithms)
| Thuật toán | Ứng dụng thực tế | Đặc điểm |
|---|---|---|
| Logistic Regression | Dự đoán khách hàng rời bỏ | Phân loại nhị phân |
| K-Nearest Neighbors (KNN) | Nhận diện chữ viết tay | Đơn giản, dễ hiểu |
| Support Vector Machine (SVM) | Phát hiện gian lận thẻ tín dụng | Phân tách dữ liệu tốt |
| Decision Tree | Dự đoán bệnh ung thư | Phân nhánh quyết định |
| Random Forest | Phát hiện gian lận | Tổng hợp nhiều cây quyết định |
| Naive Bayes | Phân loại email spam | Xác suất có điều kiện |
| XGBoost / CatBoost | Dự đoán điểm tín dụng | Hiệu suất cao |
| Neural Network | Nhận diện khuôn mặt | Mạng nơ-ron đa lớp |
| Ensemble Methods | Tăng độ chính xác mô hình | Voting, Bagging, Stacking |
2. Thuật toán Học Không Giám Sát (Unsupervised Learning)
📌 Mục tiêu:
-
Phát hiện mẫu dữ liệu chưa gán nhãn, tìm cấu trúc ẩn trong dữ liệu.
2.1. Phân cụm (Clustering Algorithms)
| Thuật toán | Ứng dụng thực tế | Đặc điểm |
|---|---|---|
| K-Means Clustering | Phân nhóm khách hàng | Chia cụm theo khoảng cách |
| Hierarchical Clustering | Phân cấp nhóm sản phẩm | Xây dựng cây phân cấp |
| DBSCAN | Phát hiện cụm dữ liệu bất thường | Không cần số cụm trước |
| Gaussian Mixture Models (GMM) | Nhận diện hành vi người dùng | Mô hình xác suất |
2.2. Giảm chiều dữ liệu (Dimensionality Reduction)
| Thuật toán | Ứng dụng thực tế | Đặc điểm |
|---|---|---|
| Principal Component Analysis (PCA) | Nén dữ liệu hình ảnh | Giảm chiều dữ liệu |
| t-SNE | Trực quan hóa dữ liệu phức tạp | Giảm chiều, trực quan hóa |
| LDA (Linear Discriminant Analysis) | Phân loại văn bản | Giảm chiều có giám sát |
3. Học Bán Giám Sát (Semi-Supervised Learning)
-
Kết hợp dữ liệu có nhãn và không nhãn.
-
Ứng dụng: Dự đoán bệnh dịch, phát hiện gian lận.
| Thuật toán | Ứng dụng thực tế |
|---|---|
| Label Propagation | Gắn nhãn dữ liệu mới |
| Label Spreading | Truyền nhãn dữ liệu |
4. Học Tăng Cường (Reinforcement Learning)
-
Hệ thống học từ môi trường qua phần thưởng/phạt.
-
Ứng dụng: Robot tự hành, chơi game, giao dịch chứng khoán.
| Thuật toán | Ứng dụng thực tế |
|---|---|
| Q-Learning | Chơi game (AlphaGo) |
| Deep Q-Network (DQN) | Robot tự hành |
| SARSA | Điều khiển giao thông |
| Policy Gradient | Chiến lược đầu tư chứng khoán |
5. Phát Hiện Bất Thường (Anomaly Detection)
| Thuật toán | Ứng dụng thực tế | Đặc điểm |
|---|---|---|
| Isolation Forest | Phát hiện gian lận giao dịch | Cô lập dữ liệu bất thường |
| One-Class SVM | Phát hiện lỗi thiết bị | Phân tách dữ liệu bất thường |
| Autoencoder | Phát hiện tấn công mạng | Deep Learning-based |
6. Học Sâu (Deep Learning)
| Thuật toán | Ứng dụng thực tế | Đặc điểm |
|---|---|---|
| Artificial Neural Network (ANN) | Dự đoán doanh thu bán hàng | Mạng nơ-ron cơ bản |
| Convolutional Neural Network (CNN) | Nhận diện hình ảnh | Mạng tích chập |
| Recurrent Neural Network (RNN) | Dự đoán chuỗi thời gian | Mạng tuần tự |
| Long Short-Term Memory (LSTM) | Phát hiện DDoS | Ghi nhớ dài hạn |
| Transformer | Dịch máy, ChatGPT | Xử lý song song, attention |
🎯 7. Tổng kết
| Loại thuật toán | Ứng dụng điển hình |
|---|---|
| Hồi quy (Regression) | Dự đoán giá nhà, thời gian |
| Phân loại (Classification) | Phát hiện spam, dự đoán bệnh |
| Phân cụm (Clustering) | Phân nhóm khách hàng |
| Giảm chiều (Dim. Reduction) | Nén dữ liệu, trực quan hóa |
| Phát hiện bất thường (Anomaly Detection) | Phát hiện gian lận |
| Học sâu (Deep Learning) | Nhận diện hình ảnh, âm thanh |