Machine Learning: Từ Feature thô đến Feature có ý nghĩa

Machine Learning: Từ Feature thô đến Feature có ý nghĩa - Part 3

Lời mở đầu

Trong Machine Learning, thuật toán hiếm khi là vấn đề. Dữ liệu và cách biểu diễn dữ liệu mới là yếu tố quyết định. Bài viết này phân tích một mô hình Binary Classification đơn giản trong ML.NET để chỉ ra:

Vì sao Accuracy có thể gây hiểu nhầm
Vì sao Recall 100% có thể là dấu hiệu nguy hiểm
Vì sao Feature Engineering mới là đòn bẩy thực sự

Các bài viết khác

1. Bài toán

Ta có dữ liệu:

Duration – thời gian khách ở lại website
IsPurchased – có mua hàng hay không

public class CustomerData
{
    [LoadColumn(0)]
    public float Duration { get; set; }

    [LoadColumn(1)]
    public bool IsPurchased { get; set; }
}

Mục tiêu: Dự đoán IsPurchased.

2. Setup Pipeline đơn giản

var mlContext = new MLContext();

var data = mlContext.Data.LoadFromTextFile<CustomerData>(
    fileName, hasHeader: true, separatorChar: ',');

var split = mlContext.Data.TrainTestSplit(data, testFraction: 0.2);

var pipeline = mlContext.Transforms
    .Concatenate("Features", nameof(CustomerData.Duration))
    .Append(context.BinaryClassification.Trainers.SdcaLogisticRegression(labelColumnName: "IsPurchased", featureColumnName: "Features"));

var model = pipeline.Fit(split.TrainSet);

Evaluate model

var predictions = model.Transform(split.TestSet);

var metrics = mlContext.BinaryClassification.Evaluate(predictions);

Console.WriteLine($"Accuracy: {metrics.Accuracy:P2}");
Console.WriteLine($"Precision: {metrics.PositivePrecision:P2}");
Console.WriteLine($"Recall: {metrics.PositiveRecall:P2}");
Console.WriteLine($"F1Score: {metrics.F1Score:P2}");

3. Khi Recall = 100% nhưng model vẫn tệ

Giả sử kết quả:

Accuracy: 53.33%
Precision: 41.67%
Recall: 100.00%
F1Score: 58.82%

Recall

$$ Recall = \frac{True\ Positive}{True\ Positive + False\ Negative} $$

Recall 100% nghĩa là model không bỏ sót bất kỳ người mua nào.

Precision

$$ Precision = \frac{True\ Positive}{True\ Positive + False\ Positive} $$

Precision 41% nghĩa là trong 100 người model dự đoán “sẽ mua”, chỉ 41 người thực sự mua.

Điều này thường xảy ra khi model dự đoán tất cả mọi người đều mua.

Không có False Negative → Recall = 100%
Nhiều False Positive → Precision thấp
Accuracy chỉ hơn 50%

Đây không phải model thông minh. Đây là model đoán bừa nhưng an toàn.

F1 Score – Cân bằng giữa Precision và Recall

Công thức:

$$ F1 = 2 \cdot \frac{Precision \cdot Recall}{Precision + Recall} $$

F1 Score là trung bình điều hòa (harmonic mean) của Precision và Recall.

Khác với trung bình cộng, trung bình điều hòa sẽ giảm mạnh nếu một trong hai giá trị thấp. Điều này giúp F1 phạt những mô hình có Precision cao nhưng Recall thấp, hoặc ngược lại.

Áp dụng vào ví dụ:

Precision = 41.67%
Recall = 100%

$$ F1 = 2 \cdot \frac{0.4167 \cdot 1.0}{0.4167 + 1.0} \approx 0.588 $$

F1 ≈ 58.82%

Điều này cho thấy:

Model bắt được tất cả người mua (Recall cao)
Nhưng dự đoán sai quá nhiều (Precision thấp)
F1 giảm xuống do mất cân bằng giữa hai chỉ số

Insight: F1 buộc mô hình phải vừa “bắt đủ” vừa “bắt đúng”. Nếu một trong hai yếu, F1 sẽ phản ánh ngay.

Đánh giá nhanh chất lượng mô hình (Rule-of-thumb)

Không có ngưỡng tuyệt đối cho mọi bài toán. Tuy nhiên có thể dùng một số quy tắc thực tế sau:

Precision và Recall chênh lệch quá lớn (> 30%) → Model mất cân bằng, cần kiểm tra threshold hoặc feature.
Recall = 100% nhưng Precision thấp → Model có thể đang dự đoán tất cả là Positive.
Precision cao nhưng Recall thấp → Model quá thận trọng, bỏ sót nhiều Positive.
F1 thấp hơn 0.6 → Model chưa đạt mức ổn định (trong đa số bài toán thực tế).
Accuracy xấp xỉ tỷ lệ lớp chiếm đa số → Model có thể chỉ đang học theo phân phối dữ liệu.

Ví dụ:

Accuracy = 53%
Precision = 41%
Recall = 100%
F1 = 58%

→ Model có dấu hiệu dự đoán thiên lệch về lớp Positive. Precision thấp và F1 dưới 0.6 cho thấy mô hình chưa đủ tốt để triển khai.

static void EvaluateModelHealth(
    CalibratedBinaryClassificationMetrics metrics,
    IDataView testSet,
    MLContext mlContext)
{
    const double F1Threshold = 0.60;
    const double ImbalanceThreshold = 0.30;
    const double BaselineTolerance = 0.02;

    double precision = metrics.PositivePrecision;
    double recall = metrics.PositiveRecall;
    double f1 = metrics.F1Score;
    double accuracy = metrics.Accuracy;

    double imbalance = Math.Abs(precision - recall);

    Console.WriteLine("---- Model Health Check ----");
    Console.WriteLine($"Imbalance (|Precision - Recall|): {imbalance:P2}");

    // Compute majority class baseline
    var labels = mlContext.Data
        .CreateEnumerable<CustomerData>(testSet, reuseRowObject: false)
        .Select(x => x.IsPurchased)
        .ToList();

    double positiveRate = labels.Count(x => x) / (double)labels.Count;
    double negativeRate = 1 - positiveRate;
    double majorityBaseline = Math.Max(positiveRate, negativeRate);

    Console.WriteLine($"Majority Class Baseline Accuracy: {majorityBaseline:P2}");

    string status;
    string explanation;

    if (f1 <  F1Threshold)
    {
        status = "POOR";
        explanation = "Low F1 score indicates weak balance between precision and recall.";
    }
    else if (imbalance > ImbalanceThreshold)
    {
        status = "IMBALANCED";
        explanation = "Large gap between precision and recall. Consider adjusting threshold or improving features.";
    }
    else if (accuracy <= majorityBaseline + BaselineTolerance)
    {
        status = "BASELINE-LIKE";
        explanation = "Model performance is close to majority class baseline. It may not have learned meaningful patterns.";
    }
    else
    {
        status = "ACCEPTABLE";
        explanation = "Metrics look reasonably balanced. Further domain validation is recommended.";
    }

    Console.WriteLine($"Model Status: {status}");
    Console.WriteLine($"Explanation: {explanation}");
    Console.WriteLine("-----------------------------");
}

4. Vấn đề không nằm ở thuật toán

Ta dùng Logistic Regression – một thuật toán tuyến tính chuẩn.

Vấn đề là ta chỉ cung cấp đúng 1 feature: Duration.

Model không có đủ thông tin để tìm ranh giới phân loại tốt.

5. Feature Engineering – Thay đổi không gian đặc trưng

Ta thêm một feature mới: phiên truy cập dài hơn 300 giây.


public class ModelInput
{
    public float Duration { get; set; }

    public float IsLongSession { get; set; }

    [ColumnName("Label")]
    public bool IsPurchased { get; set; }
}

CustomMapping để tạo feature

var pipeline = context.Transforms.CustomMapping<CustomerData, ModelInput>(
    (input, output) =>
    {
        output.Duration = input.Duration;
        output.IsLongSession = input.Duration > 300 ? 1f : 0f;
        output.IsPurchased = input.IsPurchased;
    },
    contractName: "CustomerMapping")

    .Append(context.Transforms.Concatenate(
        "Features",
        nameof(ModelInput.Duration),
        nameof(ModelInput.IsLongSession)))

    .Append(context.BinaryClassification.Trainers.LbfgsLogisticRegression());

Nhưng kết quả không cải thiện.

Hiện tại bạn có:

Feature space = (Duration, IsLongSession)

Nhưng:

IsLongSession = f(Duration)

Tức là feature mới chỉ là một phép biến đổi từ feature cũ. Về mặt toán học, nó không chứa thông tin độc lập. Về mặt hình học, bạn không thực sự mở rộng không gian..

Bạn chỉ đang thêm một feature phụ thuộc hoàn toàn vào Duration.

Về mặt hình học:

Bạn không mở rộng không gian, bạn chỉ vẽ lại cùng một thông tin.

🧠 Nếu mô hình không cải thiện, câu hỏi không phải là:

Threshold 300 có đúng không?

Mà là:

Feature mới này có thêm thông tin gì mà Duration chưa có?

Feature Engineering không phải là thêm cột.

Mà là:

Thêm thông tin mới vào không gian đặc trưng.

Nếu feature mới không làm thay đổi khả năng phân biệt giữa các lớp, thì mô hình sẽ không học được gì thêm.

Vậy câu hỏi tiếp theo nên là:

Làm sao biết một feature có thực sự mang thông tin mới?
Làm sao kiểm tra điều đó trước khi train model?
Làm sao nghĩ ra feature có khả năng phân biệt tốt hơn?

Train và Evaluate lại

var model = pipeline.Fit(split.TrainSet);
var predictions = model.Transform(split.TestSet);
var metrics = context.BinaryClassification.Evaluate(predictions);

Console.WriteLine($"Accuracy: {metrics.Accuracy}");
Console.WriteLine($"Precision: {metrics.PositivePrecision}");
Console.WriteLine($"Recall: {metrics.PositiveRecall}");
Console.WriteLine($"F1Score: {metrics.F1Score}");

6. Insight quan trọng

Accuracy không đủ để đánh giá model.
Recall cao không đồng nghĩa model tốt.
Thuật toán thường không phải vấn đề đầu tiên.
Feature Engineering thay đổi hình học của không gian dữ liệu.

Khi bạn thêm feature, bạn đang thay đổi không gian vector mà thuật toán nhìn thấy. Điều đó có thể quan trọng hơn việc đổi sang một thuật toán phức tạp hơn.

Kết luận

Trong ML.NET (và Machine Learning nói chung), trước khi tìm thuật toán tốt hơn, hãy tự hỏi:

Dữ liệu của tôi đã đủ thông tin để máy học phân biệt chưa?

ASP.NET MVC: Cơ bản về Validation

Validation (chứng thực) là một tính năng quan trọng trong ASP.NET MVC và được phát triển trong một thời gian dài. Validation vắng mặt trong phiên bản đầu tiên của asp.net mvc và thật khó để tích hợp 1 framework validation của một bên thứ 3 vì không có khả năng mở rộng. ASP.NET MVC2 đã hỗ trợ framework validation do Microsoft phát triển, tên là Data Annotations. Và trong phiên bản 3, framework validation đã hỗ trợ tốt hơn việc xác thực phía máy khách, và đây là một xu hướng của việc phát triển ứng dụng web ngày nay.

Nhật ký học tập

Tìm kiếm Blog này