Chuyển đến nội dung chính

Ghi chú về bài toán Phân tích phản hồi (Analyze Sentiment)

Trong bài viết này, mình tập trung ghi chú lại nhưng điều cần thiết để cài đặt và chạy chương trình Machine Learning, áp dụng cho bài toán phân tích phản hồi (tiêu cực hay tích cực)
Thật ra có thư viện nổi tiếng khác là Tenflow, nhưng do mình không quen với Python nên mình kiếm thư viện khác thay thế, và đó là ML.NET
Bài toán Sentiment analysis có link hướng dẫn: https://docs.microsoft.com/vi-vn/dotnet/machine-learning/tutorials/sentiment-analysis
Bài toán này đặt ra là làm sao khi một người nhập 1 comment vào, mình sẽ phân tích được comment đó là tích cực hay tiêu cực.
Nếu theo cách suy nghĩ thông thường, thì mình có thể phân tích. Nhưng với máy tính, chúng ta sẽ áp dụng trí tuệ nhân tạo.
Các bước chuẩn bị:
  • Data: bao gồm dữ liệu học (training) và testing. Mặc định data testing là 10%
  • Data thực tế cần kiểm chứng
  • Visual Studio 2019
  • Thư viện ML.NET

Quá trình:
Chuẩn bị dữ liệu =>Tải dữ liệu => Xây dựng và huấn luyện (chọn thuật toán) => Đánh giá mô hình => Sử dụng mô hình để dự đoán => Kết quả

Chuẩn bị dữ liệu

Bạn download dữ liệu mẫu tại: http://archive.ics.uci.edu/ml/machine-learning-databases/00331/sentiment%20labelled%20sentences.zip
Tạo chương trình Console Application, chọn .NET Core.
Cài đặt nuget package: ML.NET.
Copy data vào thư mục Data\yeld_labelled.txt
Xây dựng Sentiment Model:


// <SnippetDeclareTypes>
public class SentimentData
{
	[LoadColumn(0)]
	public string SentimentText;

	[LoadColumn(1), ColumnName("Label")]
	public bool Sentiment;
}

public class SentimentPrediction : SentimentData
{

	[ColumnName("PredictedLabel")]
	public bool Prediction { get; set; }

	public float Probability { get; set; }

	public float Score { get; set; }
}
// </SnippetDeclareTypes>

Trong ML.NET, bạn đặt Label để chỉ ra thuộc tính đó là target variable, dùng để dự đoán, dựa vào các biến khác (gọi là feature). Còn biến dự đoán sẽ có tên là PredictedLabel


 

Huấn luyện

Ở hàm main, bạn thêm đoạn code sau:


MLContext mlContext = new MLContext();
TrainTestData splitDataView = LoadData(mlContext);
//build and train model
ITransformer model = BuildAndTrainModel(mlContext, splitDataView.TrainSet);
//evaluate data
Evaluate(mlContext, model, splitDataView.TestSet);
//test with real data
UseModelWithSingleItem(mlContext, model);

3 dòng cuối rất quan trọng, và cũng là template để bạn làm các chương trình AI sau này. Đầu tiên, bạn cho máy học, sau đó là đánh giá, cuối cùng là test với dữ liệu thật.
Về chi tiết từng hàm, bạn tham khảo thêm ở trang Microsoft hoặc theo mã nguồn đính kèm. 

Chọn Thuật toán

Bạn tham khảo link:
https://docs.microsoft.com/en-us/dotnet/machine-learning/how-to-choose-an-ml-net-algorithm
https://nordiccoder.com/blog/phan-nhom-thuat-toan-machine-learning-nhung-dieu-ban-can-phai-biet/
Có nhiều nhóm thuật toán như: thuật toán hồi quy, instance-based, Regularization, cây quyết định, Bayesian, Clustering, thuật toán học quy tắc kết hợp, mạng nơ ron nhân tạo, deep learing, thuật toán giảm kích thước, tập hợp,
Ví dụ, như Thuật toán hồi quy liên quan đến việc mô hình hóa mối quan hệ giữa các biến. Rằng chúng ta sử dụng để tinh chỉnh bằng cách sử dụng phương pháp đo lỗi trong các dự đoán được đưa ra bởi mô hình.
Ví dụ: Linear regression là một phương pháp (thuật toán) thuộc loại đơn giản nhất trong machine learning (từ đây viết là ML), với mục đích TÌM (vẽ) ra một đường thẳng, sao cho nó đi qua hoặc đi gần nhất với các điểm cho trước. Từ một tập dữ liệu cho trước, khi ta vẽ được một đường thẳng như vậy, ta có thể đoán xem các điểm khác sẽ nằm ở đâu.
(nguồn: https://medium.com/pymi/%C4%91o%C3%A1n-gi%C3%A1-chu%E1%BB%91i-tr%C3%AAn-th%E1%BB%8B-tr%C6%B0%E1%BB%9Dng-v%E1%BB%9Bi-thu%E1%BA%ADt-to%C3%A1n-ml-linear-regression-d34a880dd139)

Kiểm chứng

Bạn thêm đoạn code sau:
 


private static void UseModelWithSingleItem(MLContext mlContext, ITransformer model)
{
	PredictionEngine<SentimentData, SentimentPrediction> predictionFunction = mlContext.Model.CreatePredictionEngine<SentimentData, SentimentPrediction>(model);
	// <SnippetCreateTestIssue1>
	SentimentData sampleStatement = new SentimentData
	{
		SentimentText = "This was a very <ad steak"
	};
	// </SnippetCreateTestIssue1>

	// <SnippetPredict>
	var resultPrediction = predictionFunction.Predict(sampleStatement);
	// </SnippetPredict>
	// <SnippetOutputPrediction>
	Console.WriteLine();
	Console.WriteLine("=============== Prediction Test of model with a single sample and test dataset ===============");

	Console.WriteLine();
	Console.WriteLine($"Sentiment: {resultPrediction.SentimentText} | Prediction: {(Convert.ToBoolean(resultPrediction.Prediction) ? "Positive" : "Negative")} | Probability: {resultPrediction.Probability} ");

	Console.WriteLine("=============== End of Predictions ===============");
	Console.WriteLine();
	// </SnippetOutputPrediction>
}
Download toàn bộ code chương trình tại:Mediafire

Nhận xét

Bài đăng phổ biến từ blog này

[ASP.NET MVC] Authentication và Authorize

Một trong những vấn đề bảo mật cơ bản nhất là đảm bảo những người dùng hợp lệ truy cập vào hệ thống. ASP.NET đưa ra 2 khái niệm: Authentication và Authorize Authentication xác nhận bạn là ai. Ví dụ: Bạn có thể đăng nhập vào hệ thống bằng username và password hoặc bằng ssh. Authorization xác nhận những gì bạn có thể làm. Ví dụ: Bạn được phép truy cập vào website, đăng thông tin lên diễn đàn nhưng bạn không được phép truy cập vào trang mod và admin.

ASP.NET MVC: Cơ bản về Validation

Validation (chứng thực) là một tính năng quan trọng trong ASP.NET MVC và được phát triển trong một thời gian dài. Validation vắng mặt trong phiên bản đầu tiên của asp.net mvc và thật khó để tích hợp 1 framework validation của một bên thứ 3 vì không có khả năng mở rộng. ASP.NET MVC2 đã hỗ trợ framework validation do Microsoft phát triển, tên là Data Annotations. Và trong phiên bản 3, framework validation đã hỗ trợ tốt hơn việc xác thực phía máy khách, và đây là một xu hướng của việc phát triển ứng dụng web ngày nay.

Tổng hợp một số kiến thức lập trình về Amibroker

Giới thiệu về Amibroker Amibroker theo developer Tomasz Janeczko được xây dựng dựa trên ngôn ngữ C. Vì vậy bộ code Amibroker Formula Language sử dụng có syntax khá tương đồng với C, ví dụ như câu lệnh #include để import hay cách gói các object, hàm trong các block {} và kết thúc câu lệnh bằng dấu “;”. AFL trong Amibroker là ngôn ngữ xử lý mảng (an array processing language). Nó hoạt động dựa trên các mảng (các dòng/vector) số liệu, khá giống với cách hoạt động của spreadsheet trên excel.