FANDOM


Xử lý tiếng Việt là tên gọi của một nhóm các bài toán liên quan đến việc nhập/xuất, sửa đổi thông tin tiếng Việt bằng máy tính. Các thông tin này có thể tồn tại dưới dạng văn bản, âm thanh hay hình ảnh.

Xử lý văn bản tiếng Việt

Cùng với sự phát triển của mạng toàn cầu, văn bản tiếng Việt tồn tại dưới dạng số ngày một nhiều. Lượng thông tin tồn tại trong các văn bản đó là khổng lồ tuy nhiên không có cấu trúc nên khó thao tác bằng máy tính. Ai khai thác được lượng thông tin này sẽ làm chủ được một nguồn lợi lớn về kinh tế, tri thức, thậm chí chính trị.

So với các dạng tồn tại của thông tin như hình ảnh, âm thanh thì văn bản vẫn là dễ xử lý nhất. Do đó hầu hết các bài toán quan trọng của xử lý ngôn ngữ đều được thực hiện trên dạng dữ liệu này:

Xử lý tiếng nói tiếng Việt

Bài toán xử lý tiếng nói có những ứng dụng trực tiếp trong đời sống hàng ngày. Hiện nay người ta đang hướng đến giao diện người-máy bằng tiếng nói. Google cũng đã hỗ trợ nhận dạng tiếng nói tiếng Việt rất tốt.

Nhận dạng ký tự quang học tiếng Việt

Tiếng Việt có một số ký tự không có trong bảng chữ cái La-tinh và có thêm các dấu thanh. Số cách tổ hợp chữ cái và dấu thanh lên đến hơn 100 cách.