Chuyển đến nội dung chính

Khai thác dữ liệu web với AngleSharp trong .NET Core

Web scrapping là gì?

Web scraping là một quá trình tự động thu thập thông tin từ website. Nói là cách đơn giản là lấy thông tin (html) từ 1 website cụ thể rồi trích xuất data cần thiết.
Ứng dụng là việc khai thác dữ liệu là bạn có thể tùy biến để cập nhật tin tức, giá cả cổ phiếu, vàng, ...
Hiện tại, có nhiều thư viện hỗ trợ như: AngleSharp và HtmlAgilityPack. Nhưng mình thấy HtmlAgilityPack chưa hỗ trợ .NET Core nên mình quyết định mài mò nghiên cứu AngleSharp.

Cài đặt và sử dụng AngleSharp

Tạo project Console Application mới. Sau đó cài đặt AngleSharp

dotnet add package AngleSharp
Khai báo namespace:

using AngleSharp;
using AngleSharp.Dom;
using AngleSharp.Html.Dom;
Để thực hiện việc lấy data, bạn không cần khai báo HttpModule. AngleSharp sẽ làm việc đó thay bạn Đoạn code dưới đây sẽ lấy data từ 1 trang web có địa chỉ url, ví dụ trang https://vnexpress.net

var config = Configuration.Default.WithDefaultLoader();
var context = BrowsingContext.New(config);
var document = await context.OpenAsync(url);
var result = new List<string>();
// Print all source code Html at the console windows
Console.WriteLine(document.DocumentElement.OuterHtml);
Giả sử bạn cần lấy tất cả tiêu đề của từng bài báo trong trang chủ, bạn sẽ ghi query phần tử Html + class name.
var titleRows = document.QuerySelectorAll("h3.title-news").ToList(); foreach(var row in titleRows) { Console.WriteLine(row.TextContent); }
Nếu bạn muốn nhấp vào link và chuyển tới trang tiếp theo, dùng hàm NavigateAsync()

var titleRow = titleRows.FirstOrDefault();
Console.WriteLine(titleRow.TextContent);
var nodeToClick = (IHtmlAnchorElement)titleRow.QuerySelector("a");

//nodeToClick.DoClick();
var newDocument = await nodeToClick.NavigateAsync();
//Console.WriteLine(newDocument.DocumentElement.OuterHtml);
titleRow = newDocument.QuerySelectorAll("h1.title-detail").FirstOrDefault();
Console.WriteLine(titleRow.TextContent);
AnBinhTrong's blog

Nhận xét

Bài đăng phổ biến từ blog này

[ASP.NET MVC] Authentication và Authorize

Một trong những vấn đề bảo mật cơ bản nhất là đảm bảo những người dùng hợp lệ truy cập vào hệ thống. ASP.NET đưa ra 2 khái niệm: Authentication và Authorize Authentication xác nhận bạn là ai. Ví dụ: Bạn có thể đăng nhập vào hệ thống bằng username và password hoặc bằng ssh. Authorization xác nhận những gì bạn có thể làm. Ví dụ: Bạn được phép truy cập vào website, đăng thông tin lên diễn đàn nhưng bạn không được phép truy cập vào trang mod và admin.

ASP.NET MVC: Cơ bản về Validation

Validation (chứng thực) là một tính năng quan trọng trong ASP.NET MVC và được phát triển trong một thời gian dài. Validation vắng mặt trong phiên bản đầu tiên của asp.net mvc và thật khó để tích hợp 1 framework validation của một bên thứ 3 vì không có khả năng mở rộng. ASP.NET MVC2 đã hỗ trợ framework validation do Microsoft phát triển, tên là Data Annotations. Và trong phiên bản 3, framework validation đã hỗ trợ tốt hơn việc xác thực phía máy khách, và đây là một xu hướng của việc phát triển ứng dụng web ngày nay.

Tổng hợp một số kiến thức lập trình về Amibroker

Giới thiệu về Amibroker Amibroker theo developer Tomasz Janeczko được xây dựng dựa trên ngôn ngữ C. Vì vậy bộ code Amibroker Formula Language sử dụng có syntax khá tương đồng với C, ví dụ như câu lệnh #include để import hay cách gói các object, hàm trong các block {} và kết thúc câu lệnh bằng dấu “;”. AFL trong Amibroker là ngôn ngữ xử lý mảng (an array processing language). Nó hoạt động dựa trên các mảng (các dòng/vector) số liệu, khá giống với cách hoạt động của spreadsheet trên excel.