字符集和编码
字符集和编码区别
字符集(Character Set) 是计算机中用于表示文本的字符集合。
字符集 vs. 编码(Encoding)
- 字符集 定义“有哪些字符”,如 ASCII、GB2312、Unicode。
- 编码 定义“字符如何存储为二进制”,如 UTF-8、GBK、Big5。
常见字符集示例
- ASCII(1963年)
- 最早的字符集,仅包含 128 个字符(英文字母、数字、基本符号)。
- 无法表示中文、日文等非拉丁文字。
- GB2312(1980年)
- 中国国家标准,收录 6763 个汉字,适用于简体中文。
- 采用 2字节编码(兼容 ASCII)。
- GBK(1993年)
- GB2312 的扩展,支持 21886 个字符(包括繁体字、生僻字)。
- 仍然是 2字节固定长度编码。
- Unicode(1991年至今)
- 国际统一字符集,目标涵盖全球所有文字(目前超过 14 万个字符)。
- 编码方式 包括 UTF-8(变长,1-4字节)、UTF-16(2或4字节)、UTF-32(固定4字节)。
为什么需要不同的字符集?
- 早期计算机存储有限(ASCII 只用 7 位存储字符)。
- 不同国家/地区制定自己的标准(如中文用 GBK,日文用 Shift_JIS)。
- Unicode 的出现解决了全球字符统一问题,但编码方式(如 UTF-8)影响存储和传输效率。
字符集和编码
https://weihehe.top/2025/06/25/字符集/