Xử lý tiếng Việt

Xử lý tiếng Việt là tên gọi của một nhóm các bài toán liên quan đến việc nhập/xuất, sửa đổi thông tin tiếng Việt bằng máy tính. Các thông tin này có thể tồn tại dưới dạng văn bản, âm thanh hay hình ảnh.

Xử lý văn bản tiếng Việt
Cùng với sự phát triển của mạng toàn cầu, văn bản tiếng Việt tồn tại dưới dạng số ngày một nhiều. Lượng thông tin tồn tại trong các văn bản đó là khổng lồ tuy nhiên không có cấu trúc nên khó thao tác bằng máy tính. Ai khai thác được lượng thông tin này sẽ làm chủ được một nguồn lợi lớn về kinh tế, tri thức, thậm chí chính trị.

So với các dạng tồn tại của thông tin như hình ảnh, âm thanh thì văn bản vẫn là dễ xử lý nhất. Do đó hầu hết các bài toán quan trọng của xử lý ngôn ngữ đều được thực hiện trên dạng dữ liệu này:
 * Tách từ
 * Tách câu
 * Phân tích từ loại
 * Phân giải nhập nhằng từ
 * Nhận dạng thực thể có tên
 * Phân giải đồng tham chiếu
 * Phân tích cú pháp
 * Phân tích ngữ nghĩa
 * Trích xuất thông tin
 * Phát hiện chủ đề
 * Tóm tắt văn bản
 * Phân tích tình thái
 * Sinh ngôn ngữ tự nhiên
 * Sửa lỗi chính tả
 * Phát hiện đạo văn
 * Dịch máy

Xử lý tiếng nói tiếng Việt
Bài toán xử lý tiếng nói có những ứng dụng trực tiếp trong đời sống hàng ngày. Hiện nay người ta đang hướng đến giao diện người-máy bằng tiếng nói. Google cũng đã hỗ trợ nhận dạng tiếng nói tiếng Việt rất tốt.
 * Nhận dạng tiếng nói
 * Tổng hợp tiếng nói

Nhận dạng ký tự quang học tiếng Việt
Tiếng Việt có một số ký tự không có trong bảng chữ cái La-tinh và có thêm các dấu thanh. Số cách tổ hợp chữ cái và dấu thanh lên đến hơn 100 cách.
 * Nhận dạng ký tự quang học