Tinh chỉnh siêu tham số nâng cao | MinAI Learning

⚙️ Hyperparameter Tuning Nâng Cao

🎯 Mục tiêu bài học

TB5 min

🎯 Mục tiêu bài học

Sau bài học này, bạn sẽ:

✅ Phân biệt rõ parameter và hyperparameter trong Machine Learning
✅ Hiểu và áp dụng 4 chiến lược tìm kiếm: Grid Search, Random Search, Bayesian Optimization, Optuna
✅ Tính toán thủ công quy trình tìm kiếm hyperparameter trên bảng
✅ Viết code Python thực hành tuning với Scikit-learn, XGBoost, Optuna
✅ Áp dụng Cross-Validation đúng cách để đánh giá unbiased
✅ Biết khi nào dùng phương pháp nào trong thực tế

Checkpoint

Bạn hãy mô tả sự khác biệt giữa parameter và hyperparameter, và giải thích tại sao việc tuning hyperparameter lại quan trọng trong Machine Learning?

Task 0

📖 Hyperparameter vs Parameter

TB5 min

1. Hyperparameter vs Parameter — Phân biệt rõ ràng

1.1. Parameter là gì?

Parameter (tham số mô hình) là các giá trị mà model tự học được từ dữ liệu trong quá trình training.

Ví dụ: Trong Linear Regression $y = w_1 x_1 + w_2 x_2 + b$ , các giá trị $w_1$ , $w_2$ , $b$ là parameters — model tự tìm ra chúng bằng cách tối ưu hàm loss.

1.2. Hyperparameter là gì?

Hyperparameter (siêu tham số) là các giá trị mà chúng ta phải thiết lập trước khi bắt đầu quá trình training. Model không tự học được các giá trị này.

Ví dụ: max_depth=5 trong Decision Tree, learning_rate=0.01 trong Gradient Boosting — đây là những quyết định chúng ta phải đưa ra trước.

1.3. Bảng so sánh chi tiết

Tiêu chí	Parameter	Hyperparameter
Ai thiết lập?	Model tự học	Con người thiết lập trước
Khi nào xác định?	Trong quá trình training	Trước khi training
Ví dụ	Weights, biases	Learning rate, max_depth
Thay đổi bằng cách nào?	Gradient descent	Grid search, random search, Bayesian
Lưu trữ ở đâu?	Trong model đã train	Trong config/script
Ảnh hưởng đến?	Dự đoán trực tiếp

1.4. Hyperparameters phổ biến theo từng model

Model	Hyperparameters chính	Ý nghĩa
Decision Tree	`max_depth`, `min_samples_split`, `criterion`	Kiểm soát độ sâu và điều kiện chia nhánh
Random Forest	`n_estimators`, `max_depth`, `max_features`	Số cây, độ sâu tối đa, số features mỗi lần chia
SVM	`C`, `kernel`, `gamma`	Mức penalty, loại kernel, phạm vi ảnh hưởng
XGBoost	`n_estimators`, , ,

1.5. Tại sao Hyperparameter Tuning quan trọng?

Vấn đề: Cùng một model, cùng dữ liệu — nhưng với hyperparameters khác nhau, kết quả accuracy có thể dao động từ 60% đến 95%.

Khi nào cần tuning?

Khi model đang underfitting (accuracy thấp trên cả train và test)
Khi model đang overfitting (accuracy cao trên train, thấp trên test)
Khi muốn squeeze thêm performance từ model hiện tại
Khi chuyển sang dataset mới và cần tìm config phù hợp

Nguyên tắc thực tế

Luôn bắt đầu với baseline model (hyperparameters mặc định) trước. Chỉ tuning khi baseline đã cho kết quả hợp lý và bạn muốn cải thiện thêm.

Task 1

🔍 Grid Search — Tìm kiếm toàn diện

TB5 min

2. Grid Search — Tìm kiếm Toàn diện

2.1. Ý tưởng cốt lõi

Grid Search thử tất cả các tổ hợp có thể của hyperparameters trong một lưới (grid) đã định nghĩa trước.

Khi nào sử dụng Grid Search?

Khi không gian tìm kiếm nhỏ (ít hyperparameters, ít giá trị)
Khi bạn cần đảm bảo tìm được tổ hợp tốt nhất trong lưới
Khi computational budget đủ lớn

Khi nào KHÔNG nên dùng?

Khi có nhiều hyperparameters → số tổ hợp tăng theo hàm mũ (curse of dimensionality)

2.2. Ví dụ 1 — Tính toán thủ công (Cơ bản)

Giả sử chúng ta có model Decision Tree với 2 hyperparameters:

max_depth: [3, 5]
min_samples_split: [2, 5]

Bước 1: Liệt kê tất cả tổ hợp

\text{Số tổ hợp} = |\text{max\_depth}| \times |\text{min\_samples\_split}| = 2 \times 2 = 4

Task 2

🎲 Random Search — Tìm kiếm Ngẫu nhiên

TB5 min

3. Random Search — Tìm kiếm Ngẫu nhiên

3.1. Ý tưởng cốt lõi

Random Search không thử tất cả tổ hợp mà lấy mẫu ngẫu nhiên từ phân phối xác suất của mỗi hyperparameter.

Khi nào sử dụng Random Search?

Khi không gian tìm kiếm lớn (nhiều hyperparameters)
Khi muốn cân bằng giữa chất lượng kết quả và thời gian tính toán
Khi hyperparameters có continuous range (không chỉ vài giá trị rời rạc)

Tại sao Random Search thường tốt hơn Grid Search?

Theo nghiên cứu của Bergstra & Bengio (2012):

Khi chỉ một vài hyperparameters thực sự quan trọng, Random Search khám phá nhiều giá trị khác nhau cho các hyperparameters quan trọng đó hơn so với Grid Search.

3.2. Ví dụ 1 — Tính toán thủ công (Cơ bản)

Giả sử XGBoost với 2 hyperparameters, mỗi cái lấy ngẫu nhiên:

max_depth ∈ [3, 10] (uniform integer)
learning_rate ∈ [0.01, 0.3] (uniform float)

Chọn n_iter=5 (chỉ thử 5 tổ hợp ngẫu nhiên):

Trial #	max_depth (ngẫu nhiên)	learning_rate (ngẫu nhiên)

Task 3

🧠 Bayesian Optimization — Tìm kiếm Thông minh

TB5 min

4. Bayesian Optimization — Tìm kiếm Thông minh

4.1. Ý tưởng cốt lõi

Bayesian Optimization là phương pháp tìm kiếm có hướng dẫn (guided search) — nó học từ các kết quả trước để quyết định thử tổ hợp nào tiếp theo.

Công thức cốt lõi dựa trên Surrogate Model (mô hình đại diện):

\text{Acquisition Function}: \alpha(x) = \mathbb{E}[\max(f(x) - f(x^+), 0)]

Task 4

⚡ Optuna — Framework Hiện đại

TB5 min

5. Optuna — Framework Hiện đại nhất

5.1. Tại sao chọn Optuna?

Optuna là framework hyperparameter optimization hiện đại nhất (2019, Preferred Networks), được sử dụng rộng rãi trong cả research và production.

Tính năng	Grid Search	Random Search	Bayesian (skopt)	Optuna
Pruning (dừng sớm trial kém)	❌	❌	❌	✅
Dashboard trực quan	❌	❌	❌	✅
Hỗ trợ distributed	❌	❌

Task 5

📊 Bảng so sánh 4 Phương pháp

TB5 min

6. Bảng tóm tắt — So sánh 4 Phương pháp

Tiêu chí	Grid Search	Random Search	Bayesian Optimization	Optuna (TPE)
Ý tưởng	Thử tất cả tổ hợp	Lấy mẫu ngẫu nhiên	Học từ kết quả trước	TPE + Pruning
Hiệu quả	⭐	⭐⭐	⭐⭐⭐	⭐⭐⭐⭐
Tốc độ	Chậm nhất	Nhanh	Trung bình	Nhanh (nhờ pruning)

Task 6

🔄 Cross-Validation cho Tuning

TB5 min

7. Cross-Validation — Đánh giá Đúng cách khi Tuning

7.1. Tại sao cần Cross-Validation?

Vấn đề: Nếu chỉ dùng 1 lần train/test split, kết quả có thể phụ thuộc vào cách chia dữ liệu → không đáng tin cậy.

Cross-Validation giải quyết bằng cách chia dữ liệu thành $k$ phần, luân phiên dùng mỗi phần làm validation.

7.2. Ví dụ tính toán thủ công — K-Fold CV (k=3)

Dữ liệu: 9 mẫu, chia thành 3 fold, mỗi fold 3 mẫu:

Fold	Train set	Validation set	Accuracy
1	9	3	0.85
2	9	6	0.82

Task 7

🧠 Neural Network Hyperparameter Tuning

TB5 min

8. Neural Network Hyperparameter Tuning với Keras Tuner

8.1. Khi nào cần tuning Neural Network?

Vấn đề: Neural Networks có rất nhiều hyperparameters — kiến trúc mạng (layers, neurons), training (learning rate, batch size), regularization (dropout). Tuning thủ công rất khó.

Keras Tuner là framework chuyên dụng cho Neural Network tuning, tích hợp với TensorFlow/Keras.

8.2. Các hyperparameters chính của Neural Network

Nhóm	Hyperparameter	Range phổ biến	Ý nghĩa
Kiến trúc	Số hidden layers	1–6	Độ phức tạp model
	Neurons/layer	16–512	Dung lượng biểu diễn
	Activation function

Task 8

✅ Best Practices & Lỗi thường gặp

TB5 min

9. Best Practices và Lỗi Thường Gặp

9.1. Quy tắc vàng khi Tuning

#	Quy tắc	Chi tiết
1	Bắt đầu từ baseline	Chạy model với default parameters trước, ghi nhận accuracy baseline
2	Random Search trước Grid Search	Random Search hiệu quả hơn cho hầu hết trường hợp (Bergstra & Bengio, 2012)
3	Dùng log-scale cho learning rate	Giá trị nhỏ (0.001-0.01) thường quan trọng hơn giá trị lớn (0.1-1.0)
4	Luôn dùng Cross-Validation	Đừng bao giờ tuning trên 1 train/test split duy nhất
5

Task 9

💻 Bài tập thực hành tổng hợp

TB5 min

10. Bài tập thực hành tổng hợp

Bài tập: So sánh 4 phương pháp tuning trên Titanic Dataset

Mục tiêu: Áp dụng tất cả 4 phương pháp đã học → so sánh kết quả và thời gian.

Python

1# ====================================
2# SETUP: Chuẩn bị dữ liệu
3# ====================================
4import numpy as np
5import pandas as pd
6import time
7from sklearn.model_selection import (
8    train_test_split, GridSearchCV,
9    RandomizedSearchCV, StratifiedKFold, cross_val_score
10)
11from sklearn.ensemble import RandomForestClassifier
12from sklearn.preprocessing import StandardScaler, LabelEncoder
13from scipy.stats import randint, uniform
14import optuna
15
16# Load Titanic dataset
17url = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
18df = pd.read_csv(url)  # Đọc CSV từ URL
19
20# Tiền xử lý cơ bản
21df['Age'].fillna(df['Age'].median(), inplace=True)      # Điền tuổi NaN bằng median
22df['Embarked'].fillna('S', inplace=True)                 # Điền cảng lên tàu
23df['Sex'] = LabelEncoder().fit_transform(df['Sex'])      # Male=1, Female=0
24df['Embarked'] = LabelEncoder().fit_transform(df['Embarked'])  # Mã hoá cảng
25df.drop(['Name', 'Ticket', 'Cabin', 'PassengerId'],
26        axis=1, inplace=True)                            # Bỏ cột không cần
27
28X = df.drop('Survived', axis=1)  # Features
29y = df['Survived']               # Target
30X_train, X_test, y_train, y_test = train_test_split(
31    X, y, test_size=0.2, random_state=42, stratify=y
32)
33
34# ====================================
35# 1. GRID SEARCH
36# ====================================
37print("=" * 50)
38print("1. GRID SEARCH")
39start = time.time()
40
41grid_params = {
42    'n_estimators': [100, 200, 300],
43    'max_depth': [5, 10, 15],
44    'min_samples_split': [2, 5],
45}
46# Tổng: 3 × 3 × 2 = 18 tổ hợp × 5 folds = 90 lần train
47
48grid = GridSearchCV(
49    RandomForestClassifier(random_state=42),
50    grid_params, cv=5, scoring='accuracy', n_jobs=-1
51)
52grid.fit(X_train, y_train)
53grid_time = time.time() - start
54
55print(f"Best accuracy (CV): {grid.best_score_:.4f}")
56print(f"Best params: {grid.best_params_}")
57print(f"Test accuracy: {grid.score(X_test, y_test):.4f}")
58print(f"Thời gian: {grid_time:.2f}s")
59
60# ====================================
61# 2. RANDOM SEARCH
62# ====================================
63print("\n" + "=" * 50)
64print("2. RANDOM SEARCH")
65start = time.time()
66
67random_params = {
68    'n_estimators': randint(50, 500),
69    'max_depth': randint(3, 20),
70    'min_samples_split': randint(2, 20),
71    'max_features': ['sqrt', 'log2', None],
72}
73
74random = RandomizedSearchCV(
75    RandomForestClassifier(random_state=42),
76    random_params, n_iter=50, cv=5, scoring='accuracy',
77    n_jobs=-1, random_state=42
78)
79random.fit(X_train, y_train)
80random_time = time.time() - start
81
82print(f"Best accuracy (CV): {random.best_score_:.4f}")
83print(f"Best params: {random.best_params_}")
84print(f"Test accuracy: {random.score(X_test, y_test):.4f}")
85print(f"Thời gian: {random_time:.2f}s")
86
87# ====================================
88# 3. OPTUNA
89# ====================================
90print("\n" + "=" * 50)
91print("3. OPTUNA")
92start = time.time()
93
94def optuna_objective(trial):
95    params = {
96        'n_estimators': trial.suggest_int('n_estimators', 50, 500),
97        'max_depth': trial.suggest_int('max_depth', 3, 20),
98        'min_samples_split': trial.suggest_int('min_samples_split', 2, 20),
99        'max_features': trial.suggest_categorical(
100            'max_features', ['sqrt', 'log2', None]
101        ),
102    }
103    model = RandomForestClassifier(**params, random_state=42)
104    scores = cross_val_score(model, X_train, y_train, cv=5, scoring='accuracy')
105    return scores.mean()
106
107study = optuna.create_study(direction='maximize')
108study.optimize(optuna_objective, n_trials=50, show_progress_bar=True)
109optuna_time = time.time() - start
110
111print(f"Best accuracy (CV): {study.best_value:.4f}")
112print(f"Best params: {study.best_params}")
113optuna_model = RandomForestClassifier(**study.best_params, random_state=42)
114optuna_model.fit(X_train, y_train)
115print(f"Test accuracy: {optuna_model.score(X_test, y_test):.4f}")
116print(f"Thời gian: {optuna_time:.2f}s")
117
118# ====================================
119# BẢNG SO SÁNH KẾT QUẢ
120# ====================================
121print("\n" + "=" * 50)
122print("BẢNG SO SÁNH")
123print(f"{'Phương pháp':<20} {'CV Accuracy':<15} {'Test Accuracy':<15} {'Thời gian':<10}")
124print("-" * 60)
125print(f"{'Grid Search':<20} {grid.best_score_:<15.4f} {grid.score(X_test, y_test):<15.4f} {grid_time:<10.2f}s")
126print(f"{'Random Search':<20} {random.best_score_:<15.4f} {random.score(X_test, y_test):<15.4f} {random_time:<10.2f}s")
127print(f"{'Optuna':<20} {study.best_value:<15.4f} {optuna_model.score(X_test, y_test):<15.4f} {optuna_time:<10.2f}s")

Task 10

📚 Tài liệu tham khảo

TB5 min

11. Tài liệu tham khảo

Tài liệu chính thức

Thư viện	Link	Mô tả
Optuna	optuna.readthedocs.io	Framework HP optimization hiện đại nhất
Scikit-learn Model Selection	scikit-learn.org/stable/model_selection.html	GridSearchCV, RandomizedSearchCV, Cross-Validation
Keras Tuner	keras.io/keras_tuner	Tuning cho Neural Networks
scikit-optimize	scikit-optimize.github.io

Task 11

🧠 Expert Lens: Tuning Strategy trong Production

TB5 min

🧠 Góc Nhìn Chuyên Gia: Chiến lược Tuning trong Production

Khi nào KHÔNG cần tuning?

Tình huống	Giải pháp thay thế
Dữ liệu quá ít (dưới 1000 mẫu)	Tập trung thu thập thêm dữ liệu
Features chưa tốt	Đầu tư vào feature engineering trước
Baseline đã đạt yêu cầu business	Ship model, tuning sau nếu cần
Model đơn giản (Logistic Regression)	Default parameters thường đủ tốt

Quy trình Tuning chuyên nghiệp trong doanh nghiệp

Ví dụ

11. Baseline (default params) → Ghi nhận score
22. Feature engineering → Thường cải thiện nhiều hơn tuning
33. Random Search (50-100 trials) → Tìm vùng tốt
44. Optuna fine-tuning (narrow range) → Tinh chỉnh
55. Nested CV → Report unbiased score
66. A/B testing → Validate trên production traffic

Tín Hiệu Trưởng Thành

✅ Có baseline rõ ràng trước khi tune
✅ Log tất cả experiments (MLflow, W&B)
✅ Dùng Nested CV cho final report
✅ So sánh improvement vs computational cost

Task 12

📚 Tài liệu tham khảo

Nguồn	Link	Ghi chú
MLflow Documentation	https://mlflow.org/docs/latest/index.html	Tài liệu MLflow cho MLOps
Papers With Code	https://paperswithcode.com/	State-of-the-art ML với code
Google ML Best Practices	https://developers.google.com/machine-learning/guides	Best practices từ Google
Made With ML	https://madewithml.com/	MLOps và production ML
Surprise Library

max_depth

learning_rate

subsample

Tổ hợp #	max_depth	min_samples_split
1	3	2
2	3	5
3	5	2
4	5	5

Tổ hợp #	max_depth	min_samples_split	CV Fold 1	CV Fold 2	CV Fold 3	Mean Accuracy
1	3	2	0.82	0.80	0.83	0.817
2	3	5	0.81	0.79	0.82	0.807
3	5	2	0.88	0.86	0.87	0.870
4	5	5	0.85	0.84	0.86	0.850

#	n_estimators	max_depth	max_features	Mean CV Accuracy
1	100	5	sqrt	0.823
2	100	5	log2	0.819
3	100	10	sqrt	0.856
4	100	10	log2	0.851
5	100	15	sqrt	0.862
6	100	15	log2	0.858
7	200	5	sqrt	0.831
8	200	5	log2	0.827
9	200	10	sqrt	0.867
10	200	10	log2	0.863
11	200	15	sqrt	0.874
12	200	15	log2	0.869
13	300	5	sqrt	0.833
14	300	5	log2	0.829
15	300	10	sqrt	0.869
16	300	10	log2	0.864
17	300	15	sqrt	0.876
18	300	15	log2	0.871

Python

1# Bước 1: Import các thư viện cần thiết
2from sklearn.model_selection import GridSearchCV  # Module tìm kiếm Grid Search
3from sklearn.ensemble import RandomForestClassifier  # Model Random Forest
4from sklearn.datasets import load_iris  # Dataset mẫu để thực hành
5from sklearn.model_selection import train_test_split  # Chia train/test
6
7# Bước 2: Chuẩn bị dữ liệu
8X, y = load_iris(return_X_y=True)  # Load dataset Iris (150 mẫu, 4 features)
9X_train, X_test, y_train, y_test = train_test_split(
10    X, y,
11    test_size=0.2,      # 20% dữ liệu dành cho test
12    random_state=42,     # Seed để kết quả reproducible
13    stratify=y           # Đảm bảo tỷ lệ class cân bằng trong train/test
14)
15
16# Bước 3: Định nghĩa lưới hyperparameters (giống Ví dụ 2)
17param_grid = {
18    'n_estimators': [100, 200, 300],   # Số cây trong rừng
19    'max_depth': [5, 10, 15],          # Độ sâu tối đa mỗi cây
20    'max_features': ['sqrt', 'log2']   # Số features xét khi chia nhánh
21}
22# Tổng: 3 × 3 × 2 = 18 tổ hợp
23
24# Bước 4: Khởi tạo model và Grid Search
25rf = RandomForestClassifier(random_state=42)  # Model cơ bản
26grid_search = GridSearchCV(
27    estimator=rf,          # Model cần tuning
28    param_grid=param_grid, # Lưới hyperparameters đã định nghĩa
29    cv=5,                  # 5-Fold Cross-Validation
30    scoring='accuracy',    # Metric đánh giá: accuracy
31    n_jobs=-1,             # Dùng tất cả CPU cores để tăng tốc
32    verbose=1,             # In tiến trình (1=ít, 2=chi tiết)
33    return_train_score=True  # Lưu cả train score để phát hiện overfitting
34)
35
36# Bước 5: Chạy Grid Search
37grid_search.fit(X_train, y_train)
38# Scikit-learn sẽ thử tất cả 18 tổ hợp × 5 folds = 90 lần train
39
40# Bước 6: Xem kết quả
41print(f"Tổ hợp tốt nhất: {grid_search.best_params_}")
42print(f"Accuracy trung bình (CV): {grid_search.best_score_:.4f}")
43
44# Bước 7: Đánh giá trên test set
45test_accuracy = grid_search.score(X_test, y_test)
46print(f"Accuracy trên test set: {test_accuracy:.4f}")

Trial	n_estimators	max_depth	learning_rate	subsample	Mean CV Acc
1	342	8	0.07	0.85	0.881
2	158	12	0.21	0.72	0.862
3	467	6	0.03	0.91	0.876
4	231	10	0.15	0.68	0.870
5	389	5	0.09	0.95	0.883
6	275	14	0.18	0.77	0.859
7	412	7	0.05	0.88	0.889
8	195	9	0.11	0.82	0.874

Python

1# Bước 1: Import các thư viện cần thiết
2from sklearn.model_selection import RandomizedSearchCV  # Module Random Search
3from scipy.stats import randint, uniform  # Phân phối xác suất cho sampling
4from xgboost import XGBClassifier  # Model XGBoost
5
6# Bước 2: Định nghĩa phân phối cho mỗi hyperparameter
7# (Giống phạm vi trong Ví dụ 2 ở trên)
8param_distributions = {
9    'n_estimators': randint(100, 500),       # Số nguyên ngẫu nhiên trong [100, 500)
10    'max_depth': randint(3, 15),             # Số nguyên ngẫu nhiên trong [3, 15)
11    'learning_rate': uniform(0.01, 0.29),    # Số thực ngẫu nhiên trong [0.01, 0.30]
12    'subsample': uniform(0.6, 0.4),          # Số thực ngẫu nhiên trong [0.6, 1.0]
13}
14
15# Bước 3: Khởi tạo model và Random Search
16xgb = XGBClassifier(
17    random_state=42,
18    eval_metric='logloss'  # Metric nội bộ để XGBoost không warning
19)
20
21random_search = RandomizedSearchCV(
22    estimator=xgb,                    # Model cần tuning
23    param_distributions=param_distributions,  # Phân phối hyperparameters
24    n_iter=50,                        # Thử 50 tổ hợp ngẫu nhiên
25    cv=5,                             # 5-Fold Cross-Validation
26    scoring='accuracy',               # Metric đánh giá
27    n_jobs=-1,                        # Dùng tất cả CPU
28    random_state=42,                  # Seed ngẫu nhiên cho reproducibility
29    verbose=1                         # In tiến trình
30)
31
32# Bước 4: Chạy Random Search
33random_search.fit(X_train, y_train)
34
35# Bước 5: Kết quả
36print(f"Tổ hợp tốt nhất: {random_search.best_params_}")
37print(f"Accuracy (CV): {random_search.best_score_:.4f}")
38print(f"Accuracy (Test): {random_search.score(X_test, y_test):.4f}")

Trial	learning_rate	Accuracy
1	0.05	0.83
2	0.25	0.78

Trial	learning_rate	Accuracy
3	0.10	0.87

Trial	learning_rate	Accuracy
4	0.08	0.89

Trial	learning_rate	Accuracy
5	0.09	0.88

Trial	learning_rate	max_depth	Accuracy	Ghi chú
1	0.10	8	0.85	Khởi tạo ngẫu nhiên
2	0.25	4	0.79	Khởi tạo ngẫu nhiên
3	0.05	12	0.82	Khởi tạo ngẫu nhiên
4	0.08	10	0.88	Surrogate → vùng (lr thấp, depth vừa) tiềm năng
5	0.06	9	0.87	Khám phá lân cận trial #4
6	0.09	11	0.90	Hội tụ vào vùng tốt nhất
7	0.07	10	0.89	Xác nhận vùng tối ưu

Python

1# Bước 1: Import thư viện
2# scikit-optimize là thư viện Bayesian Optimization cho scikit-learn
3from skopt import BayesSearchCV  # Bayesian Search tương thích scikit-learn
4from skopt.space import Real, Integer, Categorical  # Khai báo không gian tìm kiếm
5
6# Bước 2: Định nghĩa không gian tìm kiếm
7search_spaces = {
8    'n_estimators': Integer(100, 500),          # Số nguyên trong [100, 500]
9    'max_depth': Integer(3, 15),                # Số nguyên trong [3, 15]
10    'learning_rate': Real(0.01, 0.3,
11                          prior='log-uniform'),  # Log-uniform: ưu tiên giá trị nhỏ
12    'subsample': Real(0.6, 1.0),                # Số thực trong [0.6, 1.0]
13    'colsample_bytree': Real(0.6, 1.0),         # Tỉ lệ features mỗi cây
14}
15# Lưu ý: prior='log-uniform' phù hợp cho learning_rate vì giá trị thường
16# nằm trong khoảng nhỏ (0.001-0.1) hơn là khoảng lớn (0.1-1.0)
17
18# Bước 3: Khởi tạo Bayesian Search
19bayes_search = BayesSearchCV(
20    estimator=XGBClassifier(random_state=42, eval_metric='logloss'),
21    search_spaces=search_spaces,
22    n_iter=50,            # 50 trials — mỗi trial "thông minh" hơn trial trước
23    cv=5,                 # 5-Fold Cross-Validation
24    scoring='accuracy',
25    n_jobs=-1,
26    random_state=42,
27    verbose=1
28)
29
30# Bước 4: Chạy Bayesian Optimization
31bayes_search.fit(X_train, y_train)
32
33# Bước 5: Kết quả
34print(f"Tổ hợp tốt nhất: {bayes_search.best_params_}")
35print(f"Accuracy (CV): {bayes_search.best_score_:.4f}")
36print(f"Accuracy (Test): {bayes_search.score(X_test, y_test):.4f}")

Trial	max_depth	Accuracy	Phân nhóm (threshold=0.85)
1	5	0.82	Kém (g)
2	8	0.87	Tốt (l)
3	4	0.80	Kém (g)
4	9	0.86	Tốt (l) — TPE cập nhật: vùng [7-10] có tỉ lệ l/g cao
5	7	0.89	Tốt (l) — TPE tập trung vùng [7-9]
6	8	0.88	Tốt (l) — Xác nhận vùng tối ưu

Trial	n_estimators	max_depth	lr	Epoch 10 Acc	Epoch 30 Acc	Epoch 50 Acc	Trạng thái
1	200	8	0.1	0.75	0.83	0.87	✅ Hoàn thành
2	150	4	0.3	0.60	—	—	❌ Pruned tại epoch 10 (quá kém)
3	300	10	0.05	0.78	0.86	0.91	✅ Hoàn thành
4	100	3	0.2	0.65	0.70	—	❌ Pruned tại epoch 30
5	250	9	0.07	0.80	0.88	0.92	✅ Hoàn thành

Python

1# Bước 1: Import thư viện
2import optuna  # Framework hyperparameter optimization
3from sklearn.model_selection import cross_val_score  # Cross-validation
4
5# Bước 2: Định nghĩa hàm objective
6# Đây là hàm mà Optuna sẽ tối ưu — trả về metric cần maximize/minimize
7def objective(trial):
8    """
9    Hàm mục tiêu cho Optuna.
10    - trial: Object quản lý 1 lần thử hyperparameters
11    - Mỗi trial.suggest_* tạo ra một giá trị hyperparameter
12    """
13    # Gợi ý (suggest) giá trị cho mỗi hyperparameter
14    params = {
15        'n_estimators': trial.suggest_int(
16            'n_estimators', 100, 500     # Số nguyên trong [100, 500]
17        ),
18        'max_depth': trial.suggest_int(
19            'max_depth', 3, 15           # Số nguyên trong [3, 15]
20        ),
21        'learning_rate': trial.suggest_float(
22            'learning_rate', 0.01, 0.3,
23            log=True                     # Log-scale: ưu tiên giá trị nhỏ
24        ),
25        'subsample': trial.suggest_float(
26            'subsample', 0.6, 1.0        # Số thực trong [0.6, 1.0]
27        ),
28        'colsample_bytree': trial.suggest_float(
29            'colsample_bytree', 0.6, 1.0
30        ),
31    }
32
33    # Tạo model với hyperparameters được gợi ý
34    model = XGBClassifier(
35        **params,                        # Unpack dictionary thành keyword arguments
36        random_state=42,
37        eval_metric='logloss'
38    )
39
40    # Đánh giá bằng 5-Fold Cross-Validation
41    scores = cross_val_score(
42        model, X_train, y_train,
43        cv=5,                            # 5 folds
44        scoring='accuracy'               # Metric: accuracy
45    )
46
47    return scores.mean()  # Trả về accuracy trung bình
48
49# Bước 3: Tạo Study (quản lý toàn bộ quá trình optimization)
50study = optuna.create_study(
51    direction='maximize',                # Tối đa hoá accuracy
52    study_name='xgboost-tuning'          # Tên study để dễ quản lý
53)
54
55# Bước 4: Chạy optimization
56study.optimize(
57    objective,                           # Hàm mục tiêu
58    n_trials=100,                        # Thử 100 tổ hợp
59    show_progress_bar=True               # Hiển thị thanh tiến trình
60)
61
62# Bước 5: Xem kết quả
63print(f"Tổ hợp tốt nhất: {study.best_params}")
64print(f"Accuracy tốt nhất (CV): {study.best_value:.4f}")
65
66# Bước 6: Trực quan hoá (chạy trong Jupyter Notebook)
67fig1 = optuna.visualization.plot_optimization_history(study)
68# Biểu đồ lịch sử optimization — cho thấy accuracy cải thiện qua từng trial
69fig1.show()
70
71fig2 = optuna.visualization.plot_param_importances(study)
72# Biểu đồ tầm quan trọng — hyperparameter nào ảnh hưởng nhiều nhất
73fig2.show()
74
75fig3 = optuna.visualization.plot_contour(study)
76# Biểu đồ đường đồng mức — mối quan hệ giữa các cặp hyperparameters
77fig3.show()

Ví dụ

1Bước 1: Có bao nhiêu hyperparameters?
2  ├── ≤ 3 params, ≤ 5 giá trị/param → Grid Search
3  └── > 3 params hoặc continuous range
4      ├── Budget hạn chế, model train nhanh → Random Search
5      └── Budget thoải mái hoặc model train chậm
6          ├── Cần tích hợp đơn giản với scikit-learn → BayesSearchCV
7          └── Cần dashboard, pruning, distributed → Optuna ✅

Ví dụ	Class 0 (70%)	Class 1 (30%)
Dataset gốc	70 mẫu	30 mẫu
Fold 1	14 mẫu (70%)	6 mẫu (30%)
Fold 2	14 mẫu (70%)	6 mẫu (30%)
Fold 3	14 mẫu (70%)	6 mẫu (30%)
Fold 4	14 mẫu (70%)	6 mẫu (30%)
Fold 5	14 mẫu (70%)	6 mẫu (30%)

Ví dụ

1┌─── Outer CV (5 folds) ── Đánh giá model ───┐
2│                                              │
3│  ┌─── Inner CV (3 folds) ── Tuning ───┐    │
4│  │  Fold 1: Train → Val               │    │
5│  │  Fold 2: Train → Val               │    │
6│  │  Fold 3: Train → Val               │    │
7│  │  → Chọn best hyperparameters       │    │
8│  └─────────────────────────────────────┘    │
9│                                              │
10│  Train model (best params) → Test on Outer  │
11│  → Outer Fold accuracy                       │
12└──────────────────────────────────────────────┘

Python

1# Bước 1: Import thư viện
2from sklearn.model_selection import (
3    StratifiedKFold,   # Stratified K-Fold cho class cân bằng
4    GridSearchCV,      # Grid Search trong inner loop
5    cross_val_score    # CV cho outer loop
6)
7
8# Bước 2: Thiết lập Outer và Inner CV
9outer_cv = StratifiedKFold(
10    n_splits=5,        # 5 folds cho outer (đánh giá cuối cùng)
11    shuffle=True,
12    random_state=42
13)
14
15inner_cv = StratifiedKFold(
16    n_splits=3,        # 3 folds cho inner (tuning)
17    shuffle=True,
18    random_state=42
19)
20
21# Bước 3: Thiết lập Grid Search cho inner loop
22param_grid = {
23    'n_estimators': [100, 200, 300],
24    'max_depth': [5, 10, 15],
25}
26
27grid_search = GridSearchCV(
28    estimator=RandomForestClassifier(random_state=42),
29    param_grid=param_grid,
30    cv=inner_cv,       # Inner CV cho tuning
31    scoring='accuracy',
32    n_jobs=-1
33)
34
35# Bước 4: Chạy Nested CV
36# cross_val_score sử dụng outer_cv, bên trong mỗi fold chạy grid_search
37nested_scores = cross_val_score(
38    grid_search,       # GridSearch đóng vai trò như "model"
39    X, y,
40    cv=outer_cv,       # Outer CV cho đánh giá
41    scoring='accuracy'
42)
43
44# Bước 5: Kết quả unbiased
45print(f"Nested CV Accuracy: {nested_scores.mean():.4f} ± {nested_scores.std():.4f}")
46# Kết quả này đáng tin cậy hơn regular CV vì tránh optimistic bias

Python

1# Bước 1: Import thư viện
2import keras_tuner as kt  # Framework tuning cho Keras
3from tensorflow import keras  # TensorFlow/Keras
4
5# Bước 2: Định nghĩa hàm build_model
6# Hàm này nhận object `hp` (HyperParameters) để khai báo không gian tìm kiếm
7def build_model(hp):
8    """
9    Xây dựng model với hyperparameters được tuning.
10    hp: Object HyperParameters chứa các phương thức suggest
11    """
12    model = keras.Sequential()  # Model tuần tự (sequential)
13
14    # Tuning số hidden layers (1 đến 4 layers)
15    for i in range(hp.Int('num_layers', min_value=1, max_value=4)):
16        model.add(keras.layers.Dense(
17            # Tuning số neurons mỗi layer (32 đến 256, bước 32)
18            units=hp.Int(f'units_{i}', min_value=32, max_value=256, step=32),
19            # Tuning activation function
20            activation=hp.Choice('activation', values=['relu', 'tanh', 'selu'])
21        ))
22        # Tuning dropout rate (0.0 đến 0.5, bước 0.1)
23        model.add(keras.layers.Dropout(
24            rate=hp.Float('dropout', min_value=0.0, max_value=0.5, step=0.1)
25        ))
26
27    # Output layer (binary classification)
28    model.add(keras.layers.Dense(1, activation='sigmoid'))
29
30    # Tuning learning rate (1e-4 đến 1e-2, log-scale)
31    model.compile(
32        optimizer=keras.optimizers.Adam(
33            learning_rate=hp.Float(
34                'learning_rate', min_value=1e-4, max_value=1e-2, sampling='log'
35            )
36        ),
37        loss='binary_crossentropy',
38        metrics=['accuracy']
39    )
40
41    return model
42
43# Bước 3: Tạo Tuner (dùng Hyperband — hiệu quả hơn random)
44tuner = kt.Hyperband(
45    hypermodel=build_model,        # Hàm build model
46    objective='val_accuracy',      # Metric tối ưu
47    max_epochs=50,                 # Epoch tối đa mỗi trial
48    factor=3,                      # Factor giảm (Hyperband algorithm)
49    directory='tuning_results',    # Thư mục lưu kết quả
50    project_name='neural_net'      # Tên project
51)
52
53# Bước 4: Chạy tuning
54tuner.search(
55    X_train, y_train,
56    epochs=50,
57    validation_data=(X_val, y_val),
58    callbacks=[
59        keras.callbacks.EarlyStopping(
60            patience=5,             # Dừng nếu 5 epoch không cải thiện
61            restore_best_weights=True  # Khôi phục weights tốt nhất
62        )
63    ]
64)
65
66# Bước 5: Lấy model và hyperparameters tốt nhất
67best_model = tuner.get_best_models(num_models=1)[0]
68best_hp = tuner.get_best_hyperparameters(num_trials=1)[0]
69
70print(f"Số layers: {best_hp.get('num_layers')}")
71print(f"Activation: {best_hp.get('activation')}")
72print(f"Dropout: {best_hp.get('dropout')}")
73print(f"Learning rate: {best_hp.get('learning_rate'):.6f}")

Lỗi	Hậu quả	Cách khắc phục
Tuning trên test set	Data leakage, accuracy giả	Dùng separate validation set hoặc CV
Grid quá lớn	Chạy mãi không xong	Dùng Random/Bayesian thay vì Grid
Không set random_state	Kết quả không reproducible	Luôn set `random_state=42`
Tune quá nhiều params cùng lúc	Không gian tìm kiếm quá lớn	Tune từng nhóm: kiến trúc → training → regularization
Bỏ qua default values	Mất thời gian cho params ít ảnh hưởng	Kiểm tra feature importance của hyperparameters

⚙️ Hyperparameter Tuning Nâng Cao

🎯 Mục tiêu bài học

🎯 Mục tiêu bài học

Checkpoint

📖 Hyperparameter vs Parameter

1. Hyperparameter vs Parameter — Phân biệt rõ ràng

1.1. Parameter là gì?

1.2. Hyperparameter là gì?

1.3. Bảng so sánh chi tiết

1.4. Hyperparameters phổ biến theo từng model

1.5. Tại sao Hyperparameter Tuning quan trọng?

🔍 Grid Search — Tìm kiếm toàn diện

2. Grid Search — Tìm kiếm Toàn diện

2.1. Ý tưởng cốt lõi

2.2. Ví dụ 1 — Tính toán thủ công (Cơ bản)

🎲 Random Search — Tìm kiếm Ngẫu nhiên

3. Random Search — Tìm kiếm Ngẫu nhiên

3.1. Ý tưởng cốt lõi

3.2. Ví dụ 1 — Tính toán thủ công (Cơ bản)

🧠 Bayesian Optimization — Tìm kiếm Thông minh

4. Bayesian Optimization — Tìm kiếm Thông minh

4.1. Ý tưởng cốt lõi

⚡ Optuna — Framework Hiện đại

5. Optuna — Framework Hiện đại nhất

5.1. Tại sao chọn Optuna?

📊 Bảng so sánh 4 Phương pháp

6. Bảng tóm tắt — So sánh 4 Phương pháp

🔄 Cross-Validation cho Tuning

7. Cross-Validation — Đánh giá Đúng cách khi Tuning

7.1. Tại sao cần Cross-Validation?

7.2. Ví dụ tính toán thủ công — K-Fold CV (k=3)

🧠 Neural Network Hyperparameter Tuning

8. Neural Network Hyperparameter Tuning với Keras Tuner

8.1. Khi nào cần tuning Neural Network?

8.2. Các hyperparameters chính của Neural Network

✅ Best Practices & Lỗi thường gặp

9. Best Practices và Lỗi Thường Gặp

9.1. Quy tắc vàng khi Tuning

💻 Bài tập thực hành tổng hợp

10. Bài tập thực hành tổng hợp

Bài tập: So sánh 4 phương pháp tuning trên Titanic Dataset

📚 Tài liệu tham khảo

11. Tài liệu tham khảo

Tài liệu chính thức

🧠 Expert Lens: Tuning Strategy trong Production

🧠 Góc Nhìn Chuyên Gia: Chiến lược Tuning trong Production

Khi nào KHÔNG cần tuning?

Quy trình Tuning chuyên nghiệp trong doanh nghiệp

Tín Hiệu Trưởng Thành

📚 Tài liệu tham khảo

2.3. Ví dụ 2 — Tính toán thủ công (Nâng cao)

2.4. Thực hành Python — Grid Search (mapping với Ví dụ 2)

3.3. Ví dụ 2 — Tính toán thủ công (Nâng cao)

3.4. Thực hành Python — Random Search (mapping với Ví dụ 2)

4.2. Ví dụ 1 — Tính toán thủ công (Cơ bản)

4.3. Ví dụ 2 — Tính toán thủ công (Nâng cao)

4.4. Thực hành Python — Bayesian Optimization

5.2. Cách Optuna hoạt động

5.3. Ví dụ 1 — Tính toán thủ công (Cơ bản)

5.4. Ví dụ 2 — Tính toán thủ công (Nâng cao) với Pruning

5.5. Thực hành Python — Optuna (mapping với ví dụ trên)

Quy trình lựa chọn phương pháp

7.3. Stratified K-Fold — Khi classes mất cân bằng

7.4. Nested Cross-Validation — Tránh optimistic bias

7.5. Thực hành Python — Nested CV

8.3. Thực hành Python — Keras Tuner

9.2. Lỗi thường gặp

Bài báo khoa học