码点 (Code Point) 是字符编码系统(如 Unicode)中,分配给某个抽象字符的唯一数字编号。
核心直觉
如果把 Unicode 想象成一本包含世界上所有字符的超级字典,那么码点就是每个字符在这本字典里的唯一编号。它只负责给字符一个逻辑身份,而不关心这个字符在计算机内存中具体如何存储(那是 UTF-8 等编码方式负责的事)。
关键点
- 表示方式: Unicode 中通常以
U+加上十六进制数字表示(如字母 “A” 是U+0041)。 - 容量范围: Unicode 共有 1,114,112 个码点,范围从
U+0000到U+10FFFF。 - 与编码的区别: 码点是逻辑编号,编码(Encoding)是物理字节序列。同一个码点在 UTF-8 和 UTF-16 中会被编码成不同的字节。