Ngữ liệu Wikipedia tiếng Việt (đã tách từ tố)

Ngữ liệu Wikipedia tiếng Việt vào ngày 01.01.2014, đã loại bỏ các ký tự đặc biệt và tách từ tố. Sau khi giải nén, mỗi tệp gồm nhiều tài liệu viết liền nhau không có ký hiệu đánh dấu. Mỗi dòng chứa một câu, không có dòng trống. Trong câu, các từ tố (ví dụ: âm tiết, số, dấu câu) viết cách nhau ít nhất một khoảng trắng.

Tải xuống ở đây.

Phương pháp

 * 1) Tải ngữ liệu Wikipedia tiếng Việt chưa tách từ tố.
 * 2) Xóa ký hiệu đặc biệt, "magic word"
 * 3) Phát hiện câu theo mô tả ở đây.
 * 4) Xóa dòng trống

Vấn đề đã biết
Xem ngữ liệu Wikipedia tiếng Việt chưa tách từ tố.

Tác giả
Lê Ngọc Minh 

Bản quyền
CC BY-SA