Tài nguyên cho xử lý tiếng Việt


 * Trang này chỉ liệt kê một số tài nguyên quan trọng, để xem đầy đủ mời bạn xem thể loại Tài nguyên.

Ngữ liệu tiếng Việt

 * [Danh sách từ tiếng Việt]


 * Wikipedia tiếng Việt (chưa tách từ tố, đã tách từ tố)


 * Bộ câu đã tách từ của JVnSegmenter (~7,800 câu)


 * Từ điển, treebank và ngữ liệu song ngữ từ dự án VLSP


 * Từ một nguồn chưa được kiểm chứng: 1, 2


 * Dữ liệu của VLSP Campaign 2013 (ngữ liệu VLSP được bổ sung 12,000 câu được tách từ, gán nhãn từ loại và một số câu đã tách từ tố, xem thêm)


 * Ngữ liệu Vietlex (chỉ sử dụng được trực tuyến)


 * VietnameseWAC (chỉ sử dụng được trực tuyến)


 * Các bộ ngữ liệu của tác giả Lưu Tuấn Anh (nguồn: các báo điện tử, vnthuquan.net; chưa tách từ tố)


 * 200 Cụm văn bản tiếng Việt dùng cho tóm tắt đa văn bản

Ngữ liệu song ngữ

 * Ngữ liệu song ngữ từ dự án VLSP


 * 350 cặp câu trong sách "Tiếng Việt cho người nước ngoài"

Nhận dạng chữ viết

 * Bộ chữ viết tay của SV BKHN

Chưa phân loại

 * BabelNet