Trong các bài toán học máy với dữ liệu chuỗi thời gian, đặc trưng thời gian như hour, day, month có tính chất vòng lặp. Tuy nhiên nếu biểu diễn chúng như các số tuyến tính thông thường, model sẽ hiểu sai về độ gần nhau của các thời điểm.
Để máy học hiểu được tính chất vòng lặp này, chúng ta sử dụng toán học ánh xạ thời gian lên một vòng tròn đơn vị (Unit Circle) bằng các hàm lượng giác sin và cos.
Nguồn tham khảo chính cho kỹ thuật này được lấy từ bài viết: Cyclical Encoding: An Alternative to One-Hot Encoding for Time Series Features (Haden Pelletier, May 3, 2024).
Biểu diễn thời gian bằng Sin & Cos
Mỗi thời điểm trong một chu kỳ được tách thành hai feature mới:
- Sin Component
- Cos Component
Công thức tổng quát:
$$ x_{sin} = \sin\left(\frac{2 \pi \times t}{T}\right) $$
$$ x_{cos} = \cos\left(\frac{2 \pi \times t}{T}\right) $$
Trong đó:
- $t$: giá trị thời gian hiện tại (ví dụ: giờ trong ngày).
- $T$: độ dài của chu kỳ (ví dụ:
24giờ,7ngày,12tháng).
Tại sao cần cả Sin và Cos?
Nếu chỉ dùng mỗi sin, các thời điểm đối xứng qua trục tung có thể cho giá trị trùng nhau. Ví dụ với chu kỳ 24 giờ, hai thời điểm khác nhau như 6:00 sáng và 18:00 tối có thể bị trùng giá trị nếu chỉ sử dụng một hàm lượng giác.
Bằng cách dùng cặp giá trị $(x_{sin}, x_{cos})$, mỗi thời điểm sẽ có một tọa độ duy nhất trên vòng tròn đơn vị. Điều này giúp model phân biệt được rõ ràng các thời điểm khác nhau trong cùng một chu kỳ.
Ta có thể hình dung rằng:
- $x_{sin}$ cho biết độ cao (vertical) của điểm trên vòng tròn.
- $x_{cos}$ cho biết độ lệch trái/phải (horizontal) của điểm.
Khi kết hợp cả hai, mỗi vị trí thời gian được biểu diễn rõ ràng và không bị trùng lặp như khi chỉ dùng một hàm lượng giác.
Ví dụ về chu kỳ
Với chu kỳ 24 giờ:
$$ x_{sin} = \sin\left(\frac{2 \pi \times hour}{24}\right), \quad x_{cos} = \cos\left(\frac{2 \pi \times hour}{24}\right) $$
Với chu kỳ 7 ngày:
$$ x_{sin} = \sin\left(\frac{2 \pi \times dayOfWeek}{7}\right), \quad x_{cos} = \cos\left(\frac{2 \pi \times dayOfWeek}{7}\right) $$
Lợi ích của Cyclical Encoding
- Giữ đúng bản chất vòng lặp của dữ liệu thời gian.
- Không làm tăng số lượng feature quá nhiều như One-Hot Encoding.
- Mỗi vị trí thời gian có một biểu diễn liên tục và phân biệt được vị trí.
- Phù hợp với nhiều mô hình machine learning hiện đại.
Thay vì biểu diễn đơn giản bằng số nguyên, cyclical encoding giúp model học được mối quan hệ hình học đúng đắn giữa các điểm trong chu kỳ.
Nhận xét
Đăng nhận xét