Chào bạn, tôi là Lê Thành An. Bài viết này chúng ta cùng nghiên cứu sâu vào Lịch sử ra đời, các giai đoạn phát triển của trước khi thống nhất chung duy nhất một bảng mã Unicode - Ý nghĩa của sự phát triển Unicode đối với Việt Nam hiện nay nhé.
Trước khi có Unicode, tồn tại hàng trăm hệ thống mã hóa ký tự khác nhau và không tương thích. Mỗi quốc gia, mỗi hãng sản xuất máy tính đều phát triển bảng mã riêng của mình:
Việc trao đổi dữ liệu giữa các hệ thống dẫn đến hiện tượng mojibake (文字化け) - ký tự bị hiển thị sai hoàn toàn. Ví dụ: văn bản tiếng Nhật gửi từ máy tính A có thể hiển thị thành ký tự rác trên máy tính B.
Việt Nam cũng không ngoại lệ với các bảng mã:
Một file văn bản tiếng Việt mã hóa bằng VNI khi mở bằng TCVN sẽ hiển thị hoàn toàn sai.
ISO (International Organization for Standardization) đã cố gắng tạo ra các bảng mã đa ngôn ngữ như ISO 8859-1 (Latin-1) cho các ngôn ngữ Tây Âu, nhưng vẫn không thể giải quyết được vấn đề toàn cầu.
Tổ chức Tiêu chuẩn hóa Quốc tế ISO được thành lập vào ngày 23 tháng 2 năm 1947.
Vào năm 1987, ba kỹ sư tiên phong đã bắt đầu dự án phát triển một bảng mã ký tự toàn cầu:
Tạo ra một hệ thống mã hóa với ba đặc điểm:
Ý tưởng đầu tiên tập trung vào mã hóa 16-bit cố định, cho phép mã hóa khoảng 65,536 ký tự (2^16), được cho là đủ cho các ngôn ngữ hiện đại phổ biến.
Joe Becker công bố bản dự thảo đề xuất đầu tiên vào tháng 8/1988 với tên gọi "Unicode" - kết hợp từ "unique", "unified" và "code". Xem bản công bố tại https://www.unicode.org/history/unicode88.pdf
Unicode Consortium được thành lập tại California vào ngày 3 tháng 1 năm 1991 với các thành viên sáng lập bao gồm: Apple, IBM, Microsoft, Sun Microsystems, Xerox, và nhiều công ty công nghệ khác.
Tháng 10/1991: Phiên bản đầu tiên của Unicode Standard 1.0 chính thức được công bố, bao gồm 28,327 ký tự từ 24 hệ thống chữ viết khác nhau.
Một bước ngoặt quan trọng: Năm 1991 Unicode Consortium và ISO/IEC JTC1/SC2/WG2 đã thống nhất hợp tác để tạo ra một không gian mã chung giữa Unicode và ISO/IEC 10646. Điều này đảm bảo không có sự xung đột giữa hai tiêu chuẩn quốc tế.
Bạn có thể xem thêm tài liệu về sự kiện này tại https://www.unicode.org/versions/Unicode17.0.0/core-spec/appendix-c/
Nhu cầu mã hóa các ký tự cổ đại (chữ tượng hình Ai Cập, chữ hình nêm...), các ký hiệu toán học phức tạp, và sau này là emoji cho thấy giới hạn 65,536 ký tự là không đủ.
Giải pháp: Unicode mở rộng không gian mã thành 17 mặt phẳng (planes), mỗi mặt phẳng có 65,536 code points, cho tổng cộng 1,114,112 code points có thể (từ U+0000 đến U+10FFFF).
Ken Thompson và Rob Pike phát minh ra UTF-8 trong một cuộc họp tại một quán ăn ở New Jersey vào tháng 9/1992.
Link kiểm chứng chính thống kể về sự kiện này tại https://www.cl.cam.ac.uk/~mgk25/ucs/utf-8-history.txt, mình chỉ tóm tắt ý chính cho bài nghiên cứu.
Ưu điểm vượt trội của UTF-8:
Thống kê hiện tại: Theo W3Techs, tính đến ngày 03/11/2025, hơn 98% các trang web trên thế giới sử dụng UTF-8.

Link kiểm chứng: https://w3techs.com/technologies/overview/character_encoding
Ký tự "𝕳" (U+1D577 - MATHEMATICAL BOLD FRAKTUR CAPITAL H):
Ký tự "Ấ" (U+1EA4 - LATIN CAPITAL LETTER A WITH CIRCUMFLEX AND ACUTE):
Unicode đã trở thành:
Unicode Consortium phát hành phiên bản mới hàng năm (thường vào tháng 9):
Một emoji mới cần trải qua quy trình phức tạp:
Unicode đóng vai trò thiết yếu trong:
Việt nam là quốc gia đang phát triển mạnh về công nghệ số hóa, việc Unicode thống nhất quy chuẩn như vậy vừa giải quyết rất tốt về vấn đề hiển thị tiếng Việt và chuẩn số hóa tư liệu như dữ liệu quốc gia VNeID, các nền tảng giao tiếp quốc tế. Ngoài còn có ý nghĩa quan trọng trong việc xây dựng nền giáo dục số, dữ liệu dân cư quốc gia, phần mềm của Việt Nam hiện nay.
Trên đây là toàn bộ nội dung mình đã nghiên cứu, dịch, tổng hợp dài cũng có thể khá đầy đủ rồi. Nếu bạn thấy bài viết cần bổ sung thêm - Xin vui lòng gửi email về kituhay.com@gmail.com để mình bổ sung thêm nhé.
Chân thành cảm ơn tổ chức Unicode đã luôn phát triển - duy trì sự ổn định của bảng mã Unicode để KiTuHAY nói riêng và Người trên toàn thế giới sử dụng ổn định hằng ngày.
Tác giả: Lê Thành An - Người kiểm duyệt nội dung, phát triển nội dung, nghiên cứu và phát triển nội dung liên quan đến Unicode, xử lý văn bản đa ngôn ngữ, đang quan tâm đến sự sáng tạo, kết hợp của các mã kí tự để cho ra những kí tự đặc biệt phục vụ cho cộng đồng tại Việt Nam.
Nhóm chủ đề đang nghiên cứu: Kiến thức nền tảng & Lịch sử của Unicode.
Email: kituhay.com@gmail.com