Web scrapping là gì?
Web scraping là một quá trình tự động thu thập thông tin từ website. Nói là
cách đơn giản là lấy thông tin (html) từ 1 website cụ thể rồi trích xuất data
cần thiết.
Ứng dụng là việc khai thác dữ liệu là bạn có thể tùy biến để
cập nhật tin tức, giá cả cổ phiếu, vàng, ...
Hiện tại, có nhiều thư viện
hỗ trợ như: AngleSharp và HtmlAgilityPack. Nhưng mình thấy HtmlAgilityPack
chưa hỗ trợ .NET Core nên mình quyết định mài mò nghiên cứu AngleSharp.
Cài đặt và sử dụng AngleSharp
Tạo project Console Application mới. Sau đó cài đặt AngleSharp
dotnet add package AngleSharp
Khai báo namespace:
using AngleSharp;
using AngleSharp.Dom;
using AngleSharp.Html.Dom;
Để thực hiện việc lấy data, bạn không cần khai báo HttpModule. AngleSharp sẽ làm
việc đó thay bạn Đoạn code dưới đây sẽ lấy data từ 1 trang web có địa chỉ url,
ví dụ trang https://vnexpress.net
var config = Configuration.Default.WithDefaultLoader();
var context = BrowsingContext.New(config);
var document = await context.OpenAsync(url);
var result = new List<string>();
// Print all source code Html at the console windows
Console.WriteLine(document.DocumentElement.OuterHtml);
Giả sử bạn cần lấy tất cả tiêu đề của từng bài báo trong trang chủ, bạn sẽ ghi
query phần tử Html + class name.
var titleRows = document.QuerySelectorAll("h3.title-news").ToList();
foreach(var row in titleRows)
{
Console.WriteLine(row.TextContent);
}
Nếu bạn muốn nhấp vào link và chuyển tới trang tiếp theo, dùng hàm
NavigateAsync()
var titleRow = titleRows.FirstOrDefault();
Console.WriteLine(titleRow.TextContent);
var nodeToClick = (IHtmlAnchorElement)titleRow.QuerySelector("a");
//nodeToClick.DoClick();
var newDocument = await nodeToClick.NavigateAsync();
//Console.WriteLine(newDocument.DocumentElement.OuterHtml);
titleRow = newDocument.QuerySelectorAll("h1.title-detail").FirstOrDefault();
Console.WriteLine(titleRow.TextContent);
AnBinhTrong's blog
Nhận xét
Đăng nhận xét