Ngữ liệu

Khái niệm
Corpus (ngữ liệu, khối liệu) là một dữ liệu tập hợp các văn bản, ngôn ngữ đã được số hoá. Cách dịch thông thường ở VN là “kho ngữ liệu”. Ví dụ về corpus như “tuyển tập các tác phẩm của Nam Cao”, hay “tuyển tập ca từ của Trịnh Công Sơn”,…

Các corpus là một tài nguyên quan trọng trong NLP. Từ các corpus, ta có thể rút ra những dữ liệu quan trọng sau :


 * 1) Từ các corpus, ta có thể chiết suất 1 cách tự động các qui tắc ngữ pháp “văn mạch tự do”.
 * 2) Từ các corpus có thể tính toán được xác suất, tần suất xuất hiện của các từ.

Để đảm bảo tính chính xác cho 2 kết luận trên, corpus phải đảm bảo 1 số nguyên tắc nhất định :


 * 1) Tính đại diện : các thành phần trong corpus phải có tính phổ quát, đa dạng và phong phú.
 * 2) Kích thước : kích thước của corpus càng lớn thì càng được đánh giá cao.

Dựa vào mục đích, cách xây dựng corpus, người ta chia corpus thành các loại sau :


 * 1) Corpus thô (raw corpus): đơn giản chỉ là tập hợp các dữ liệu mà không có xử lý gì thêm.
 * 2) Corpus được gắn nhãn (tagged corpus) : các dữ liệu trong corpus đã được xử lý như phân tích từ, phân tích cú pháp, gắn nhãn từ loại, …
 * 3) Parallel Corpus : được sử dụng nhiều trong ứng dụng máy dịch.

Ngoài cách chia trên, ta cũng có thể chia corpus theo cấu tạo của nó.


 * 1) Corpus biệt lập : dữ liệu lấy vào 1 cách ngẫu nhiên, biệt lập và không phân biệt với nhau.
 * 2) Corpus theo danh mục : dựa vào các danh mục để chia dữ liệu trong corpus thành các nhóm.
 * 3) Corpus trùng lặp : các dữ liệu trong corpus có thể ở nhiều nhóm cùng lúc.
 * 4) Corpus theo thời gian : các dữ liệu sắp xếp theo thời gian thu thập và thời gian xuất hiện.

Để đảm bảo tính thống kê chính xác đòi hỏi các corpus phải lớn và có tính đại diện cao.

Tham khảo

 * Khái yếu về corpus - Lưu Tuấn Anh
 * Chuyên sâu hơn về corpus - Lưu Tuấn Anh
 * N-gram