Ngữ liệu Wikipedia tiếng Việt (chưa tách từ tố)

Ngữ liệu Wikipedia tiếng Việt vào ngày 01.01.2014. Sau khi giải nén, mỗi tệp chứa 1MB nội dung văn bản (đã loại bỏ các cấu trúc XML, markup của MediaWiki nhưng vẫn giữ lại một số "magic word").

Một tệp có thể chứa nhiều bài viết được đánh dấu bằng cặp thẻ. Ngoài chức năng đánh dấu thẻ này còn cho biết địa chỉ và mã bài viết.

Tải xuống ở đây.

Phương pháp xây dựng

 * 1) Tải dump của Wikipedia tiếng Việt tại: http://dumps.wikimedia.org/backup-index.html
 * 2) Tải công cụ Wikipedia Extractor: http://medialab.di.unipi.it/wiki/Wikipedia_Extractor
 * 3) Trích xuất nội dung bằng lệnh:

Vấn đề đã biết

 * 1) Wikipedia tiếng Việt chứa một lượng không rõ nội dung tiếng Anh trong các bài đang dịch dở. Bộ ngữ liệu chưa lọc bỏ được phần nội dung này.
 * 2) Công cụ Wikipedia Extractor để lại các liên kết ngoài dưới dạng [http://...] . Vấn đề này có thể khắc phục được nhưng phải sửa mã nguồn.

Tác giả
Lê Ngọc Minh 

Bản quyền
CC BY-SA