Data Normalization trong Machine Learning (ML.NET)

1. Data Normalization là gì?

Data Normalization là một bước tiền xử lý dữ liệu (preprocessing) trong Machine Learning, dùng để đưa các feature về cùng một thang đo, thường là trong khoảng [0, 1].

Mục tiêu của normalization là tránh việc feature có giá trị lớn lấn át feature có giá trị nhỏ khi mô hình học.

Normalization không làm mất thông tin, nó chỉ thay đổi đơn vị đo.

2. Vấn đề thực tế: Feature với big value chi phối mô hình

Feature	Khoảng giá trị
Chiều cao (cm)	150 – 190
Thu nhập (VND)	5,000,000 – 200,000,000

Thu nhập lớn hơn chiều cao hàng triệu lần. Machine Learning không hiểu ý nghĩa của dữ liệu, nó chỉ nhìn vào con số.

Kết quả: feature nào có giá trị lớn hơn sẽ chi phối toàn bộ mô hình.

3. Bài toán minh họa

Dự đoán một người có mua nhà hay không dựa trên:

Chiều cao
Thu nhập

Ví dụ này không nhằm hợp lý kinh tế, mà để thấy rõ ảnh hưởng của normalization.

Dataset mẫu


Height,Income,BuyHouse
165,8000000,false
168,9000000,false
170,10000000,false
172,12000000,false
175,15000000,true
178,18000000,true
180,20000000,true

Chuẩn bị class dữ liệu (ML.NET)


using Microsoft.ML.Data;

public class HouseData
{
    [LoadColumn(0)]
    public float Height { get; set; }

    [LoadColumn(1)]
    public float Income { get; set; }

    [LoadColumn(2)]
    [ColumnName("Label")]
    public bool BuyHouse { get; set; }
}

ML.NET yêu cầu rõ ràng cột nào là Label, nếu không chỉ định sẽ gây lỗi khi train.

Output (Prediction)


public class HousePrediction
{
    [ColumnName("PredictedLabel")]
    public bool BuyHouse { get; set; }

    public float Probability { get; set; }

    public float Score { get; set; }
}

Train model KHÔNG normalization


var mlContext = new MLContext(seed: 1);

var data = mlContext.Data.LoadFromTextFile<HouseData>(
    "data.csv",
    hasHeader: true,
    separatorChar: ',');

var pipeline = mlContext.Transforms
    .Concatenate("Features",
        nameof(HouseData.Height),
        nameof(HouseData.Income))
    .Append(
        mlContext.BinaryClassification.Trainers
            .SdcaLogisticRegression());

var model = pipeline.Fit(data);

7. Test prediction


var engine = mlContext.Model
    .CreatePredictionEngine<HouseData, HousePrediction>(model);

var p1 = engine.Predict(new HouseData
{
    Height = 170,
    Income = 11_000_000
});

var p2 = engine.Predict(new HouseData
{
    Height = 180,
    Income = 11_000_000
});

Console.WriteLine($"170cm: {p1.Probability}");
Console.WriteLine($"180cm: {p2.Probability}");

Kết quả:

=== No Normalization ===
170cm: 0.50330096
180cm: 0.5033007

Chiều cao thay đổi nhưng xác suất gần như không đổi. Mô hình gần như chỉ quan tâm tới thu nhập.

Thêm Normalization


var pipeline = mlContext.Transforms
    .Concatenate("Features",
        nameof(HouseData.Height),
        nameof(HouseData.Income))
    .Append(
        mlContext.Transforms.NormalizeMinMax("Features"))
    .Append(
        mlContext.BinaryClassification.Trainers
            .SdcaLogisticRegression());

Dataset và model không đổi, chỉ thay đổi cách scale feature.

Kết quả sau normalization

=== With Normalization ===
170cm: 0.013798427
180cm: 0.008292971

Chiều cao bắt đầu ảnh hưởng rõ rệt đến kết quả dự đoán.

4. Vì sao normalization có tác dụng?

Không normalization:

$$z = w1 * 170 + w2 * 11,000,000 $$

Thu nhập áp đảo hoàn toàn chiều cao.

Có normalization:

$$z = w1 * 0.45 + w2 * 0.32$$

Các feature nằm trên cùng thang đo, mô hình học cân bằng hơn.

5. Khi nào nên dùng Normalization?

KNN, K-Means
Logistic Regression
Neural Networks
Các thuật toán nhạy với scale hoặc gradient

6. Kết luận

Normalization không làm dữ liệu “đẹp hơn”
Nó làm mô hình công bằng hơn
Không normalize: mô hình nghe ai nói to hơn
Normalize: mô hình nghe ai hợp lý hơn

Trong Machine Learning, scale chính là âm lượng. Normalization là nút chỉnh volume.

Nhật ký học tập

Tìm kiếm Blog này