1. Data Normalization là gì?
Data Normalization là một bước tiền xử lý dữ liệu (preprocessing) trong Machine Learning, dùng để đưa các feature về cùng một thang đo, thường là trong khoảng [0, 1].
Mục tiêu của normalization là tránh việc feature có giá trị lớn lấn át feature có giá trị nhỏ khi mô hình học.
Normalization không làm mất thông tin, nó chỉ thay đổi đơn vị đo.
2. Vấn đề thực tế: Feature với big value chi phối mô hình
| Feature | Khoảng giá trị |
|---|---|
| Chiều cao (cm) | 150 – 190 |
| Thu nhập (VND) | 5,000,000 – 200,000,000 |
Thu nhập lớn hơn chiều cao hàng triệu lần. Machine Learning không hiểu ý nghĩa của dữ liệu, nó chỉ nhìn vào con số.
Kết quả: feature nào có giá trị lớn hơn sẽ chi phối toàn bộ mô hình.
3. Bài toán minh họa
Dự đoán một người có mua nhà hay không dựa trên:
- Chiều cao
- Thu nhập
Ví dụ này không nhằm hợp lý kinh tế, mà để thấy rõ ảnh hưởng của normalization.
Dataset mẫu
Height,Income,BuyHouse
165,8000000,false
168,9000000,false
170,10000000,false
172,12000000,false
175,15000000,true
178,18000000,true
180,20000000,true
Chuẩn bị class dữ liệu (ML.NET)
using Microsoft.ML.Data;
public class HouseData
{
[LoadColumn(0)]
public float Height { get; set; }
[LoadColumn(1)]
public float Income { get; set; }
[LoadColumn(2)]
[ColumnName("Label")]
public bool BuyHouse { get; set; }
}
ML.NET yêu cầu rõ ràng cột nào là Label,
nếu không chỉ định sẽ gây lỗi khi train.
Output (Prediction)
public class HousePrediction
{
[ColumnName("PredictedLabel")]
public bool BuyHouse { get; set; }
public float Probability { get; set; }
public float Score { get; set; }
}
Train model KHÔNG normalization
var mlContext = new MLContext(seed: 1);
var data = mlContext.Data.LoadFromTextFile<HouseData>(
"data.csv",
hasHeader: true,
separatorChar: ',');
var pipeline = mlContext.Transforms
.Concatenate("Features",
nameof(HouseData.Height),
nameof(HouseData.Income))
.Append(
mlContext.BinaryClassification.Trainers
.SdcaLogisticRegression());
var model = pipeline.Fit(data);
7. Test prediction
var engine = mlContext.Model
.CreatePredictionEngine<HouseData, HousePrediction>(model);
var p1 = engine.Predict(new HouseData
{
Height = 170,
Income = 11_000_000
});
var p2 = engine.Predict(new HouseData
{
Height = 180,
Income = 11_000_000
});
Console.WriteLine($"170cm: {p1.Probability}");
Console.WriteLine($"180cm: {p2.Probability}");
Kết quả:
=== No Normalization ===
170cm: 0.50330096
180cm: 0.5033007
Chiều cao thay đổi nhưng xác suất gần như không đổi. Mô hình gần như chỉ quan tâm tới thu nhập.
Thêm Normalization
var pipeline = mlContext.Transforms
.Concatenate("Features",
nameof(HouseData.Height),
nameof(HouseData.Income))
.Append(
mlContext.Transforms.NormalizeMinMax("Features"))
.Append(
mlContext.BinaryClassification.Trainers
.SdcaLogisticRegression());
Dataset và model không đổi, chỉ thay đổi cách scale feature.
Kết quả sau normalization
=== With Normalization ===
170cm: 0.013798427
180cm: 0.008292971
Chiều cao bắt đầu ảnh hưởng rõ rệt đến kết quả dự đoán.
4. Vì sao normalization có tác dụng?
Không normalization:
$$z = w1 * 170 + w2 * 11,000,000 $$Thu nhập áp đảo hoàn toàn chiều cao.
Có normalization:
$$z = w1 * 0.45 + w2 * 0.32$$Các feature nằm trên cùng thang đo, mô hình học cân bằng hơn.
5. Khi nào nên dùng Normalization?
- KNN, K-Means
- Logistic Regression
- Neural Networks
- Các thuật toán nhạy với scale hoặc gradient
6. Kết luận
- Normalization không làm dữ liệu “đẹp hơn”
- Nó làm mô hình công bằng hơn
- Không normalize: mô hình nghe ai nói to hơn
- Normalize: mô hình nghe ai hợp lý hơn
Trong Machine Learning, scale chính là âm lượng. Normalization là nút chỉnh volume.
Nhận xét
Đăng nhận xét