Tiếng Việt có khoảng 134 ký tự dựng sẵn (precomposed characters) trong Unicode là do đặc thù hệ thống dấu phức tạp của chữ Quốc ngữ và nhu cầu chuẩn hóa trong kỷ nguyên số.
Chữ Quốc ngữ sử dụng:
Mỗi nguyên âm có thể kết hợp với nhiều dấu khác nhau, tạo ra hàng trăm ký tự có dấu (cả chữ hoa và chữ thường).
Các bảng mã 8-bit cũ (TCVN3, VNI, VISCII) chỉ có 256 vị trí, không đủ chứa hết ký tự tiếng Việt. Điều này dẫn đến tình trạng "loạn font" kéo dài nhiều năm - văn bản gõ bằng font này không hiển thị được trên hệ thống dùng font khác.
Unicode đề xuất dùng ký tự kết hợp (combining characters) để tiết kiệm không gian, nhưng cách này gây khó khăn:
Ký tự dựng sẵn giúp bộ gõ (Telex, VNI) hoạt động dễ dàng hơn và tương thích tốt với các hệ thống cũ.
Tiêu chuẩn TCVN 6909:2001: Do Bộ Khoa học Công nghệ và Môi trường ban hành, quy định bộ mã 16-bit cho tiếng Việt, tương thích với Unicode và ISO/IEC 10646.
Quyết định của Chính phủ: Từ 1/1/2003, mọi thông tin điện tử tiếng Việt trong các cơ quan hành chính và giao dịch với người dân phải dùng bộ mã TCVN 6909 (Unicode).
Khuyến cáo bộ gõ: Bộ Khoa học và Công nghệ khuyến cáo dùng UniKey trong cơ quan nhà nước. Bộ Giáo dục và Đào tạo yêu cầu UniKey là phần mềm chính thức trong các cơ sở giáo dục.
Ký tự tiếng Việt được phân bổ chủ yếu ở:
Khu vực Latin Extended Additional chứa các ký tự phức tạp như ế (U+1EBF), ồ, ữ...
Unicode cho phép hai cách biểu diễn:
NFC (dựng sẵn): "ế" = U+1EBF (1 ký tự) NFD (kết hợp): "ế" = U+0065 (e) + U+0302 (mũ) + U+0301 (sắc) (3 ký tự)
Người Việt chủ yếu dùng NFC vì tương thích tốt hơn.
Quy tắc: dấu phụ trước, dấu thanh sau
Theo tiếng Việt: ă, â, đ, ê, ô, ơ, ư là chữ cái riêng biệt, có vị trí riêng trong bảng chữ cái. Dấu thanh không ảnh hưởng thứ tự (á, à, ả, ã, ạ đều xếp như "a").
Unicode mặc định sắp xếp theo giá trị số, không đúng quy tắc tiếng Việt. Cần dùng Unicode Collation Algorithm (UCA) với bảng tùy chỉnh cho tiếng Việt.
Không có mâu thuẫn thực sự — hai phát biểu nói về hai bối cảnh khác nhau:
- Một bên (con số 134) nói về yêu cầu cho mã hóa 8-bit lịch sử.
- Bên kia (Unicode hiện đại) nói về cách Unicode tổ chức ký tự: một số precomposed có sẵn, nhưng nhiều tổ hợp biểu diễn bằng combining marks và tổng thể rải ra nhiều block (ví dụ Latin Extended Additional chứa nhiều ký tự dùng cho tiếng Việt; nguồn tham khảo nói ~90 ký tự trong đó được dùng cho tiếng Việt)
Việc có 134 ký tự trong Unicode không chỉ là vấn đề kỹ thuật mà còn:
Với Unicode, tiếng Việt đang hội nhập sâu vào công nghệ toàn cầu. Các công ty lớn (Google, Microsoft, Apple) đều hỗ trợ đầy đủ. Startup Việt phát triển nhiều giải pháp: bộ gõ thông minh, kiểm tra chính tả, AI xử lý tiếng Việt.
Để tiếng Việt phát triển mạnh, cần:
Văn bản chính phủ và tiêu chuẩn:
Tác giả: Lê Thành An - Người kiểm duyệt nội dung, phát triển nội dung, nghiên cứu và phát triển nội dung liên quan đến Unicode, xử lý văn bản đa ngôn ngữ, đang quan tâm đến sự sáng tạo, kết hợp của các mã kí tự để cho ra những kí tự đặc biệt phục vụ cho cộng đồng tại Việt Nam.
Nhóm chủ đề đang nghiên cứu: Kiến thức nền tảng & Lịch sử của Unicode.
Link tổng hợp: https://kituhay.com/wiki
Email: kituhay.com@gmail.com
Cập nhật: 22/11/2025 bởi Lê Thành An