Khi bạn trò chuyện với một mô hình ngôn ngữ lớn (LLM), cảm giác như nó thật sự “hiểu” ý nghĩa câu chữ. Nhưng bên dưới lớp vỏ ngôn ngữ tự nhiên đó là toán học, vector và hình học. Một trong những khái niệm quan trọng nhất giúp LLM so sánh ý nghĩa chính là cosine similarity . Nếu bạn từng thắc mắc vì sao AI biết hai câu “gần nghĩa” nhau, thì cosine similarity chính là chìa khóa. Cosine Similarity là gì? Đối với máy tính, văn bản không phải là chữ mà là vector số . Cosine similarity đo mức độ giống nhau giữa hai vector bằng cách đo góc giữa chúng , thay vì đo độ dài. Hãy tưởng tượng hai mũi tên xuất phát từ cùng một điểm: Cùng hướng → góc 0° → cosine similarity = 1 Vuông góc → góc 90° → cosine similarity = 0 Ngược hướng → góc 180° → cosine similarity = -1 Trong NLP, hai câu có ý nghĩa tương tự sẽ tạo ra các vector cùng hướng trong không gian . Công thức toán học Cosine similarity giữa hai vector A và B được định nghĩa như sau: $$ \text{cosine\_similarity...
Suy nghĩ, yêu thương và làm việc hết mình