Chuyển đến nội dung chính

Kỹ thuật Cyclical Encoding

Trong các bài toán học máy với dữ liệu chuỗi thời gian, đặc trưng thời gian như hour, day, month có tính chất vòng lặp. Tuy nhiên nếu biểu diễn chúng như các số tuyến tính thông thường, model sẽ hiểu sai về độ gần nhau của các thời điểm.

Để máy học hiểu được tính chất vòng lặp này, chúng ta sử dụng toán học ánh xạ thời gian lên một vòng tròn đơn vị (Unit Circle) bằng các hàm lượng giác sincos.

Nguồn tham khảo chính cho kỹ thuật này được lấy từ bài viết: Cyclical Encoding: An Alternative to One-Hot Encoding for Time Series Features (Haden Pelletier, May 3, 2024).

Biểu diễn thời gian bằng Sin & Cos

Mỗi thời điểm trong một chu kỳ được tách thành hai feature mới:

  • Sin Component
  • Cos Component

Công thức tổng quát:

$$ x_{sin} = \sin\left(\frac{2 \pi \times t}{T}\right) $$

$$ x_{cos} = \cos\left(\frac{2 \pi \times t}{T}\right) $$

Trong đó:

  • $t$: giá trị thời gian hiện tại (ví dụ: giờ trong ngày).
  • $T$: độ dài của chu kỳ (ví dụ: 24 giờ, 7 ngày, 12 tháng).

Tại sao cần cả Sin và Cos?

Nếu chỉ dùng mỗi sin, các thời điểm đối xứng qua trục tung có thể cho giá trị trùng nhau. Ví dụ với chu kỳ 24 giờ, hai thời điểm khác nhau như 6:00 sáng và 18:00 tối có thể bị trùng giá trị nếu chỉ sử dụng một hàm lượng giác.

Bằng cách dùng cặp giá trị $(x_{sin}, x_{cos})$, mỗi thời điểm sẽ có một tọa độ duy nhất trên vòng tròn đơn vị. Điều này giúp model phân biệt được rõ ràng các thời điểm khác nhau trong cùng một chu kỳ.

Ta có thể hình dung rằng:

  • $x_{sin}$ cho biết độ cao (vertical) của điểm trên vòng tròn.
  • $x_{cos}$ cho biết độ lệch trái/phải (horizontal) của điểm.

Khi kết hợp cả hai, mỗi vị trí thời gian được biểu diễn rõ ràng và không bị trùng lặp như khi chỉ dùng một hàm lượng giác.

Ví dụ về chu kỳ

Với chu kỳ 24 giờ:

$$ x_{sin} = \sin\left(\frac{2 \pi \times hour}{24}\right), \quad x_{cos} = \cos\left(\frac{2 \pi \times hour}{24}\right) $$

Với chu kỳ 7 ngày:

$$ x_{sin} = \sin\left(\frac{2 \pi \times dayOfWeek}{7}\right), \quad x_{cos} = \cos\left(\frac{2 \pi \times dayOfWeek}{7}\right) $$

Lợi ích của Cyclical Encoding

  • Giữ đúng bản chất vòng lặp của dữ liệu thời gian.
  • Không làm tăng số lượng feature quá nhiều như One-Hot Encoding.
  • Mỗi vị trí thời gian có một biểu diễn liên tục và phân biệt được vị trí.
  • Phù hợp với nhiều mô hình machine learning hiện đại.

Thay vì biểu diễn đơn giản bằng số nguyên, cyclical encoding giúp model học được mối quan hệ hình học đúng đắn giữa các điểm trong chu kỳ.

Nhận xét

Bài đăng phổ biến từ blog này

[ASP.NET MVC] Authentication và Authorize

Một trong những vấn đề bảo mật cơ bản nhất là đảm bảo những người dùng hợp lệ truy cập vào hệ thống. ASP.NET đưa ra 2 khái niệm: Authentication và Authorize Authentication xác nhận bạn là ai. Ví dụ: Bạn có thể đăng nhập vào hệ thống bằng username và password hoặc bằng ssh. Authorization xác nhận những gì bạn có thể làm. Ví dụ: Bạn được phép truy cập vào website, đăng thông tin lên diễn đàn nhưng bạn không được phép truy cập vào trang mod và admin.

ASP.NET MVC: Cơ bản về Validation

Validation (chứng thực) là một tính năng quan trọng trong ASP.NET MVC và được phát triển trong một thời gian dài. Validation vắng mặt trong phiên bản đầu tiên của asp.net mvc và thật khó để tích hợp 1 framework validation của một bên thứ 3 vì không có khả năng mở rộng. ASP.NET MVC2 đã hỗ trợ framework validation do Microsoft phát triển, tên là Data Annotations. Và trong phiên bản 3, framework validation đã hỗ trợ tốt hơn việc xác thực phía máy khách, và đây là một xu hướng của việc phát triển ứng dụng web ngày nay.

Tổng hợp một số kiến thức lập trình về Amibroker

Giới thiệu về Amibroker Amibroker theo developer Tomasz Janeczko được xây dựng dựa trên ngôn ngữ C. Vì vậy bộ code Amibroker Formula Language sử dụng có syntax khá tương đồng với C, ví dụ như câu lệnh #include để import hay cách gói các object, hàm trong các block {} và kết thúc câu lệnh bằng dấu “;”. AFL trong Amibroker là ngôn ngữ xử lý mảng (an array processing language). Nó hoạt động dựa trên các mảng (các dòng/vector) số liệu, khá giống với cách hoạt động của spreadsheet trên excel.