VLSP Wiki
Advertisement

Ngữ liệu Wikipedia tiếng Việt vào ngày 01.01.2014, đã loại bỏ các ký tự đặc biệt và tách từ tố. Sau khi giải nén, mỗi tệp gồm nhiều tài liệu viết liền nhau không có ký hiệu đánh dấu. Mỗi dòng chứa một câu, không có dòng trống. Trong câu, các từ tố (ví dụ: âm tiết, số, dấu câu) viết cách nhau ít nhất một khoảng trắng.

Tải xuống ở đây.

Phương pháp[]

  1. Tải ngữ liệu Wikipedia tiếng Việt chưa tách từ tố.
  2. Xóa ký hiệu đặc biệt (sed '/^<.*>/d'), "magic word" (sed 's/__[[:alpha:]]\+__//g;')
  3. Phát hiện câu theo mô tả ở đây.
  4. Xóa dòng trống (sed '/^\s*$/d')

Vấn đề đã biết[]

Xem ngữ liệu Wikipedia tiếng Việt chưa tách từ tố.

Tác giả[]

Lê Ngọc Minh <ngocminh.oss@gmail.com>

Bản quyền[]

CC BY-SA

Advertisement