Chuyển đến nội dung chính

Data Normalization trong Machine Learning (ML.NET)

1. Data Normalization là gì?

Data Normalization là một bước tiền xử lý dữ liệu (preprocessing) trong Machine Learning, dùng để đưa các feature về cùng một thang đo, thường là trong khoảng [0, 1].

Mục tiêu của normalization là tránh việc feature có giá trị lớn lấn át feature có giá trị nhỏ khi mô hình học.

Normalization không làm mất thông tin, nó chỉ thay đổi đơn vị đo.

2. Vấn đề thực tế: Feature với big value chi phối mô hình

Feature Khoảng giá trị
Chiều cao (cm) 150 – 190
Thu nhập (VND) 5,000,000 – 200,000,000

Thu nhập lớn hơn chiều cao hàng triệu lần. Machine Learning không hiểu ý nghĩa của dữ liệu, nó chỉ nhìn vào con số.

Kết quả: feature nào có giá trị lớn hơn sẽ chi phối toàn bộ mô hình.

3. Bài toán minh họa

Dự đoán một người có mua nhà hay không dựa trên:

  • Chiều cao
  • Thu nhập

Ví dụ này không nhằm hợp lý kinh tế, mà để thấy rõ ảnh hưởng của normalization.

Dataset mẫu


Height,Income,BuyHouse
165,8000000,false
168,9000000,false
170,10000000,false
172,12000000,false
175,15000000,true
178,18000000,true
180,20000000,true

Chuẩn bị class dữ liệu (ML.NET)


using Microsoft.ML.Data;

public class HouseData
{
    [LoadColumn(0)]
    public float Height { get; set; }

    [LoadColumn(1)]
    public float Income { get; set; }

    [LoadColumn(2)]
    [ColumnName("Label")]
    public bool BuyHouse { get; set; }
}

ML.NET yêu cầu rõ ràng cột nào là Label, nếu không chỉ định sẽ gây lỗi khi train.

Output (Prediction)


public class HousePrediction
{
    [ColumnName("PredictedLabel")]
    public bool BuyHouse { get; set; }

    public float Probability { get; set; }

    public float Score { get; set; }
}

Train model KHÔNG normalization


var mlContext = new MLContext(seed: 1);

var data = mlContext.Data.LoadFromTextFile<HouseData>(
    "data.csv",
    hasHeader: true,
    separatorChar: ',');

var pipeline = mlContext.Transforms
    .Concatenate("Features",
        nameof(HouseData.Height),
        nameof(HouseData.Income))
    .Append(
        mlContext.BinaryClassification.Trainers
            .SdcaLogisticRegression());

var model = pipeline.Fit(data);

7. Test prediction


var engine = mlContext.Model
    .CreatePredictionEngine<HouseData, HousePrediction>(model);

var p1 = engine.Predict(new HouseData
{
    Height = 170,
    Income = 11_000_000
});

var p2 = engine.Predict(new HouseData
{
    Height = 180,
    Income = 11_000_000
});

Console.WriteLine($"170cm: {p1.Probability}");
Console.WriteLine($"180cm: {p2.Probability}");

Kết quả:

=== No Normalization ===
170cm: 0.50330096
180cm: 0.5033007

Chiều cao thay đổi nhưng xác suất gần như không đổi. Mô hình gần như chỉ quan tâm tới thu nhập.

Thêm Normalization


var pipeline = mlContext.Transforms
    .Concatenate("Features",
        nameof(HouseData.Height),
        nameof(HouseData.Income))
    .Append(
        mlContext.Transforms.NormalizeMinMax("Features"))
    .Append(
        mlContext.BinaryClassification.Trainers
            .SdcaLogisticRegression());

Dataset và model không đổi, chỉ thay đổi cách scale feature.

Kết quả sau normalization

=== With Normalization ===
170cm: 0.013798427
180cm: 0.008292971

Chiều cao bắt đầu ảnh hưởng rõ rệt đến kết quả dự đoán.

4. Vì sao normalization có tác dụng?

Không normalization:

$$z = w1 * 170 + w2 * 11,000,000 $$

Thu nhập áp đảo hoàn toàn chiều cao.

Có normalization:

$$z = w1 * 0.45 + w2 * 0.32$$

Các feature nằm trên cùng thang đo, mô hình học cân bằng hơn.

5. Khi nào nên dùng Normalization?

  • KNN, K-Means
  • Logistic Regression
  • Neural Networks
  • Các thuật toán nhạy với scale hoặc gradient

6. Kết luận

  • Normalization không làm dữ liệu “đẹp hơn”
  • Nó làm mô hình công bằng hơn
  • Không normalize: mô hình nghe ai nói to hơn
  • Normalize: mô hình nghe ai hợp lý hơn

Trong Machine Learning, scale chính là âm lượng. Normalization là nút chỉnh volume.

Nhận xét

Bài đăng phổ biến từ blog này

[ASP.NET MVC] Authentication và Authorize

Một trong những vấn đề bảo mật cơ bản nhất là đảm bảo những người dùng hợp lệ truy cập vào hệ thống. ASP.NET đưa ra 2 khái niệm: Authentication và Authorize Authentication xác nhận bạn là ai. Ví dụ: Bạn có thể đăng nhập vào hệ thống bằng username và password hoặc bằng ssh. Authorization xác nhận những gì bạn có thể làm. Ví dụ: Bạn được phép truy cập vào website, đăng thông tin lên diễn đàn nhưng bạn không được phép truy cập vào trang mod và admin.

ASP.NET MVC: Cơ bản về Validation

Validation (chứng thực) là một tính năng quan trọng trong ASP.NET MVC và được phát triển trong một thời gian dài. Validation vắng mặt trong phiên bản đầu tiên của asp.net mvc và thật khó để tích hợp 1 framework validation của một bên thứ 3 vì không có khả năng mở rộng. ASP.NET MVC2 đã hỗ trợ framework validation do Microsoft phát triển, tên là Data Annotations. Và trong phiên bản 3, framework validation đã hỗ trợ tốt hơn việc xác thực phía máy khách, và đây là một xu hướng của việc phát triển ứng dụng web ngày nay.

Tổng hợp một số kiến thức lập trình về Amibroker

Giới thiệu về Amibroker Amibroker theo developer Tomasz Janeczko được xây dựng dựa trên ngôn ngữ C. Vì vậy bộ code Amibroker Formula Language sử dụng có syntax khá tương đồng với C, ví dụ như câu lệnh #include để import hay cách gói các object, hàm trong các block {} và kết thúc câu lệnh bằng dấu “;”. AFL trong Amibroker là ngôn ngữ xử lý mảng (an array processing language). Nó hoạt động dựa trên các mảng (các dòng/vector) số liệu, khá giống với cách hoạt động của spreadsheet trên excel.