Phân tích hình thái
- Phân tích phụ tố (affix): ví dụ anti-comput-er-iza-tion
- Xử lý từ ghép (compound word): ví dụ carry out, out of sight, out of mind
- Xử lý các trường hợp tỉnh lược (ellipsis): I’m, o’clock, Dr.
- Nhận diện tên riêng: John, Bush, IBM
- Nhân diện ranh giới từ (word boundary): tiếng Việt một từ có nhiều tiếng. Ví dụ: chúm chím, tuổi tác, hỏi han, tối om, giáo viên, hiện đại hóa, …