从 ASCII 到 Unicode：字符编码的发展历程

发表于 2026-02-01 更新于 2026-03-25 分类于计算机系统阅读次数：本文字数： 5.2k 阅读时长 ≈ 26 分钟

字符编码看起来像是一个“文本存储格式”问题，但它实际上贯穿了计算机输入、存储、传输、显示、编程语言运行时、文件系统、终端和操作系统接口的各个层面。很多开发者第一次真正意识到字符编码的重要性，往往不是在学习理论的时候，而是在遇到“乱码”时：同一个文件在一个系统里正常、在另一个系统里却变成了问号、方框或者一串莫名其妙的符号。

从历史上看，字符编码的发展，本质上是计算机从“只处理英文字符”逐步走向“处理全球文字系统”的过程；从工程上看，它也是从“各自为政”逐步走向“统一标准”的过程。本文尝试从时间演进、标准设计和不同操作系统的实现差异三个角度，系统梳理字符编码的来龙去脉。

一、为什么计算机需要字符编码

计算机底层只能存储和处理 0 和 1。而人类使用的文本则由字母、数字、标点、汉字、假名、阿拉伯文、表情符号等组成。为了让计算机理解这些字符，就必须建立一套映射规则：

把“字符”映射为某种整数值，再把整数值表示为二进制字节序列。

这套映射规则，广义上就叫字符编码。

这里需要区分几个容易混淆的概念：

字符（Character）：抽象符号，例如 A、中、€。
码点（Code Point）：字符在某个字符集中的编号。
字符集（Character Set）：规定“有哪些字符、它们的编号是什么”。
编码方式（Encoding）：规定“这些编号如何编码成字节流”。

在早期系统中，这几个概念经常被混在一起使用；到了 Unicode 时代，它们才逐渐被严格区分开。

二、早期阶段：从电报码到 ASCII

在现代计算机之前，通信系统已经存在对字符进行编码的需求。最早可以追溯到电报时代的莫尔斯码。不过莫尔斯码并不是计算机意义上的定长二进制编码，它更像是一套人工与电信号之间的约定。

进入电子计算机时代后，字符编码开始朝着适合机器处理的方向发展。

1. Baudot、EBCDIC 等早期方案

早期字符编码标准并不统一，不同设备厂商和系统常常采用自己的方案。

Baudot Code：5 位编码，容量非常有限，常用于早期电传系统。
EBCDIC：IBM 推出的 8 位编码体系，主要用于大型机生态。

这些编码方案有一个共同特点：强依赖具体硬件与厂商生态。这意味着不同系统之间交换文本数据时，兼容性很差。

2. ASCII 的出现

真正影响深远的里程碑是 ASCII（American Standard Code for Information Interchange）。

ASCII 使用 7 位 表示字符，总共可表示 128 个符号，包括：

26 个英文字母大小写
数字 0~9
常见标点符号
一系列控制字符，如：
- LF（换行）
- CR（回车）
- TAB
- ESC

ASCII 的价值不只是“能表示英文”，更重要的是它成为了一个跨平台的最小公共文本标准。许多后来的编码，不管设计差异多大，通常都会保留 ASCII 兼容区。

3. ASCII 的局限

ASCII 最大的问题很明显：

只能覆盖英文及少量符号
无法表示重音字母
无法表示中文、日文、韩文等非拉丁文字

当计算机开始走向全球化时，ASCII 很快就不够用了。

三、8 位时代：扩展 ASCII 与本地代码页

随着硬件从 7 位、6 位逐渐转向 8 位字节体系，人们自然想到：既然一个字节能表示 0~255 共 256 个值，那么是不是可以在 ASCII 的基础上扩展出更多字符？

于是出现了大量 8 位扩展编码。

1. ISO-8859 系列

ISO-8859 是一组面向不同语言区域的单字节编码标准，例如：

ISO-8859-1：西欧语言常用
ISO-8859-5：西里尔字母
ISO-8859-6：阿拉伯文

这类编码保留了前 128 个 ASCII 字符不变，把 128~255 区间分配给不同语言字符。

2. 代码页（Code Page）体系

除了 ISO 标准，许多操作系统厂商还提出了自己的“代码页”方案，最典型的是 DOS/Windows 体系。

比如：

CP437：早期 IBM PC / DOS 常见代码页
CP936：简体中文 Windows 常见代码页，本质上对应 GBK 生态
CP1252：西欧 Windows 常见 ANSI 代码页

所谓“代码页”，本质上就是某个平台选择的一套字节到字符的映射表。

3. 问题：同一个字节，不同系统含义不同

8 位时代最经典的问题就是：

同样的字节序列，在不同代码页下可能代表完全不同的字符。

这带来几个严重后果：

文件跨系统传输容易乱码
软件需要根据地区配置切换编码
一个程序如果假设编码错误，字符串处理结果就会完全错乱

这也是“乱码”成为上世纪软件开发常见问题的根本原因。

四、东亚编码的出现：多字节字符集时代

对中文、日文、韩文来说，单字节 256 个位置远远不够。于是出现了各种多字节编码。

1. 中文编码的发展

中文字符数量大，必须采用双字节甚至变长方式来编码。

常见中文编码包括：

GB2312：中国大陆较早期的简体中文标准
GBK：对 GB2312 的扩展，覆盖更多汉字
GB18030：进一步扩展，兼容 Unicode 的国家标准实现要求
Big5：繁体中文环境，尤其是早期香港、台湾地区常见

2. 日文和韩文编码

日文常见有 Shift_JIS、EUC-JP
韩文常见有 EUC-KR

这些编码往往设计复杂，既要兼容 ASCII，又要表示本国语言字符，有时还混用了单字节与双字节区间。

3. 多字节编码带来的工程复杂性

多字节编码虽然解决了字符容量问题，但也引入了更多技术难题：

一个字符不再等于一个字节
字符串长度不再等于字节长度
截断字节流时可能截断在字符中间
排序、搜索、子串截取都变复杂

也就是说，程序员不能再简单认为：

1	字符串长度 = 占用字节数

这个看似微小的变化，对编程语言库、操作系统 API、终端工具的设计都产生了深远影响。

五、统一梦想：Unicode 的诞生

到了 1980~1990 年代，软件行业逐渐意识到一个问题：

如果每个国家、每个平台、每个厂商都维护自己的编码体系，那么全球化软件开发将长期陷入混乱。

于是，Unicode 应运而生。

1. Unicode 的核心目标

Unicode 的目标很明确：

为全球各种文字系统建立统一字符集合
给每个字符分配一个唯一编号
让不同平台共享同一个字符语义标准

例如：

A 的码点是 U+0041
中 的码点是 U+4E2D
😀 的码点是 U+1F600

注意：Unicode 首先定义的是字符与码点的对应关系，并不等于某一种具体字节编码方式。

2. Unicode 不是单一编码格式

这是学习字符编码时最容易误解的一点。

很多人把 Unicode 理解成“一个编码格式”，其实更准确地说：

Unicode 是统一字符集标准，而 UTF-8、UTF-16、UTF-32 是它的具体实现编码方式。

Unicode 负责解决“字符编号统一”的问题；UTF 系列负责解决“如何把码点编码成字节”的问题。

六、UTF 家族：统一字符集下的不同实现

1. UTF-32：最直观，但空间开销大

UTF-32 为每个字符固定使用 4 个字节。

优点：

实现简单
码点到存储形式转换直接
理论上按“码点”索引方便

缺点：

太浪费空间
对英文文本尤其不经济

因此 UTF-32 更多存在于内部处理场景，而不是文本交换主流格式。

2. UTF-16：折中方案

UTF-16 以 2 字节为基本单元，常见字符通常占 2 字节，超出基本多文种平面（BMP）的字符则使用 代理对（Surrogate Pair） 表示，占 4 字节。

UTF-16 曾长期在很多系统和语言运行时中扮演重要角色，例如：

Windows 宽字符 API
Java 内部字符串历史实现
JavaScript 内部字符串编码模型（以 UTF-16 代码单元为基础）

UTF-16 的问题在于：

“一个字符”不一定是 2 字节
也不一定是一个 16 位单元
涉及代理对时，字符串遍历和长度计算容易出错

3. UTF-8：现代事实标准

UTF-8 是目前最成功的 Unicode 编码方式。

它的特点是：

变长编码，1~4 字节表示一个 Unicode 码点
完全兼容 ASCII：ASCII 范围字符在 UTF-8 下仍是原来的单字节值
适合网络传输与文件存储
没有字节序问题

UTF-8 之所以最终胜出，原因非常现实：

对英文世界兼容成本最低
对 Unix/Linux 传统字节流生态最友好
在 Web 时代极其适合跨平台传输
逐渐获得主流编程语言、编辑器、数据库和操作系统支持

今天我们说“文本文件默认编码”，大多数场景下实际默认指向的就是 UTF-8。

七、乱码究竟是怎么来的

所谓乱码，本质上通常不是“数据坏了”，而是：

写入时使用了一种编码，读取时却按另一种编码解释。

例如：

文件实际是 GBK 编码
编辑器却按 UTF-8 解码

此时字节并没有变化，但字符解释规则变了，于是就会显示异常。

乱码问题常见于：

跨操作系统复制文本文件
老旧数据库迁移到新系统
终端环境变量设置错误
Web 页面响应头与实际内容编码不一致
程序把“字节长度”误当成“字符长度”处理

所以字符编码问题的关键不只是“选哪种编码”，而是要保证：

输入、处理、存储、传输、输出链路上的编码假设一致。

八、不同操作系统下的字符编码演变

字符编码的发展，不只是标准本身的历史，也是不同操作系统生态各自演进的历史。

1. Unix / Linux：从字节流传统走向 UTF-8

Unix 的哲学是“一切皆字节流”，它并不强制内核理解“文本字符”的高级语义。传统 Unix 工具更多是对字节进行处理，再结合 locale 决定如何解释这些字节。

这带来了两个重要特点：

系统底层对编码较“中立”
用户态工具和 locale 决定文本行为

在早期 Unix 和 Linux 系统中，常见过：

ASCII
ISO-8859 系列
EUC 系列
Shift_JIS 等本地化编码

但随着互联网和开源生态全球化，UTF-8 最终成为 Linux/Unix 世界的事实标准。

今天在 Linux 中，常见可以看到：

1 2	locale echo $LANG

输出通常类似：

1 2	zh_CN.UTF-8 en_US.UTF-8

这说明当前终端、排序规则、消息本地化等都建立在 UTF-8 locale 之上。

Unix/Linux 下的几个典型现象

文件名本质上是字节序列
内核并不真正“理解 UTF-8 文件名”，更多是用户空间约定这些字节按 UTF-8 来解释。
终端编码必须匹配 locale
如果终端、shell、编辑器和程序的编码假设不一致，很容易出现乱码。
很多老工具按字节工作
比如某些脚本工具在处理多字节 UTF-8 字符时，长度统计可能与“字符数”不一致。

2. Windows：从代码页体系走向 Unicode

Windows 的字符编码历史比 Unix 更复杂，因为它长期深受 代码页（Code Page） 体系影响。

早期 DOS / Windows 阶段

在 DOS 时代，控制台和文本文件往往依赖 OEM 代码页；进入 Windows 图形界面时代后，又存在 ANSI 代码页。于是同一台机器上，常常并存：

控制台代码页
系统 ANSI 代码页
OEM 代码页
应用程序自己的编码假设

这也是 Windows 早期乱码问题非常常见的重要原因。

在中文 Windows 环境中，开发者经常会接触：

GB2312
GBK
CP936

很多历史遗留文本文件至今仍是这种编码。

Windows NT 及 Unicode API

从 Windows NT 系列开始，微软逐步构建了完整的 Unicode 支持体系。Windows API 常见分成两套：

A 版本 API：基于窄字符，通常依赖当前代码页
W 版本 API：基于宽字符，使用 UTF-16

例如：

CreateFileA
CreateFileW

这套双轨设计保证了对旧程序的兼容，也让新程序能逐步迁移到 Unicode。

现代 Windows 的变化

近些年 Windows 对 UTF-8 的支持明显增强：

Windows Terminal 默认更现代化
PowerShell / 新版控制台对 UTF-8 更友好
许多编辑器与开发工具默认 UTF-8
新项目普遍倾向统一使用 Unicode 接口

不过 Windows 生态中仍有一些历史包袱：

老程序可能仍依赖 ACP（ANSI Code Page）
控制台编码、文件编码、源码编码未必一致
某些本地化软件仍以 GBK/GB18030 为主要兼容目标

因此在 Windows 上处理中文文本时，经常仍需明确区分：

终端当前代码页是什么
文件实际保存为什么编码
程序内部字符串使用什么表示

3. macOS：现代 Unix 基础上的 Unicode 统一

macOS 继承了 Unix 家族的许多特征，整体上与 Linux 类似，现代环境中也以 UTF-8 为主。

不过 macOS 在文件系统层面还有一个常被忽视的问题：

某些场景下，文件名字符会涉及 Unicode 规范化（Normalization）差异

也就是说，看起来相同的字符，在底层码点序列上可能不完全一样。这在跨平台同步文件、比较字符串、处理带重音字符文件名时，偶尔会造成“看起来一样但比较结果不同”的问题。

因此，macOS 的编码问题虽然比早期 Windows 简单，但在 Unicode 细节层面并不意味着完全没有坑。

九、编程语言与运行时中的字符编码差异

操作系统之外，编程语言也会对编码问题产生很大影响。

1. C / C++

C 语言历史上对“字符串”的理解更接近字节数组。char * 很多时候并不意味着“字符字符串”，而只是某种编码文本的字节序列。

这使得 C 在处理文本时非常灵活，但也非常容易出错：

需要程序员自己管理编码
strlen() 返回的是字节数，不是字符数
多字节编码下截断、遍历都容易有问题

2. Java / C# / JavaScript

这些语言诞生得更晚，设计时就更重视 Unicode。

Java / C# 通常内部以 Unicode 字符串模型工作
JavaScript 字符串以 UTF-16 代码单元为核心

优点是跨平台文本处理方便得多；缺点是当遇到代理对、组合字符、emoji 等复杂情况时，“长度”“索引”“一个字符”的定义依然不简单。

3. Python

Python 3 明确区分：

str：Unicode 文本
bytes：原始字节序列

这是一种非常重要的设计改进。它强迫开发者在“文本”与“字节”之间做出明确区分，也大大减少了 Python 2 时代常见的乱码问题。

十、Web 时代为什么 UTF-8 几乎统一了世界

字符编码真正大一统，离不开 Web 的推动。

互联网要求：

浏览器能正确显示全球网页
服务器与客户端跨地区通信
HTML、CSS、JavaScript、JSON、URL、数据库之间尽可能无缝协作

在这种需求下，UTF-8 的优势被无限放大：

对英文兼容好
对多语言支持完整
字节序问题少
网络传输友好
工具链支持极其广泛

所以今天常见的现代技术栈里：

HTML 通常声明 UTF-8
JSON 默认就是 Unicode 文本表示
大多数源码文件默认 UTF-8
Linux 终端默认 UTF-8 locale
Git 仓库中文本文件通常优先 UTF-8

可以说，UTF-8 已经从“一个优秀编码方案”变成了“现代软件工程的默认共识”。

十一、今天我们仍然需要关心字符编码吗

很多人会觉得：既然现在大家都用 UTF-8，那字符编码是不是已经不是问题了？

答案是：没有以前那么痛，但依然必须理解。

原因主要有三点。

1. 历史遗留系统仍然大量存在

现实工作中仍然经常遇到：

Windows 下的 GBK 文本
老数据库中的非 UTF-8 字段
某些设备协议使用私有编码
与老旧系统对接时必须兼容代码页

2. Unicode 统一了字符集，但没有消灭所有复杂性

即便都使用 Unicode，也仍然存在：

UTF-8 / UTF-16 / UTF-32 的差异
代理对问题
组合字符问题
规范化问题
“字节长度”“码点数量”“用户感知字符数”三者不同

3. 编码问题本质上是系统边界问题

只要存在系统边界，就存在编码问题：

程序与文件之间
程序与终端之间
前端与后端之间
应用与数据库之间
Windows 与 Linux 之间

因此，字符编码并没有“消失”，只是从“人人都在报乱码”变成了“谁做底层、跨平台、数据迁移、国际化，谁就必须认真理解”。

十二、实践建议：现代开发中如何减少编码问题

如果从工程实践角度给出建议，通常可以总结为以下几条：

1. 优先统一使用 UTF-8

除非必须兼容历史系统，否则：

源码文件用 UTF-8
文本配置文件用 UTF-8
接口数据用 UTF-8
数据库存储优先 UTF-8 / utf8mb4

2. 明确区分“字节”和“文本”

尤其在网络编程、文件处理、系统编程中，要时刻问自己：

现在处理的是字节流，还是字符文本？
当前这段字节是按什么编码解释的？

3. 在系统边界处显式指定编码

例如：

读写文件时显式指定 UTF-8
HTTP 响应头明确字符集
数据导入导出时确认原始编码
终端工具中检查 locale / code page

4. 理解你的操作系统与运行时

同样一段文本处理代码，在不同平台行为可能不同，尤其是：

Windows 的代码页与 UTF-16 API
Linux 的 locale 与终端 UTF-8 环境
macOS 的 Unicode 规范化细节

理解这些差异，往往比死记编码表更重要。

总结

字符编码的发展史，本质上是计算机从局部、单语种、硬件绑定的文本表示方式，逐步走向全球统一字符体系的历史。

它经历了：

ASCII 时代：解决英文世界基础字符交换
扩展 ASCII / 代码页时代：应对区域语言需求，但兼容性差
多字节本地编码时代：解决东亚文字问题，但工程复杂度上升
Unicode 时代：统一字符集，建立全球文本处理基础设施
UTF-8 普及时代：成为现代跨平台软件开发事实标准

从操作系统视角看：

Unix/Linux 倾向字节流与 UTF-8 locale 生态
Windows 则从代码页逐步迁移到以 Unicode/UTF-16 为核心，并不断加强 UTF-8 支持
macOS 基本拥抱 UTF-8，但在 Unicode 规范化等细节上仍有自己的特点

理解字符编码，不只是为了避免乱码，更是为了真正理解：文本在计算机内部究竟是如何被表示、传输和解释的。 这对于系统编程、网络编程、跨平台开发、数据库迁移和国际化软件开发，都是一项非常基础但极其重要的能力。