字符集和编码

字符集和编码区别

​字符集(Character Set)​​ 是计算机中用于表示文本的​​字符集合​​。

​字符集 vs. 编码(Encoding)​

  • ​字符集​​ 定义“有哪些字符”,如 ASCII、GB2312、Unicode。
  • ​编码​​ 定义“字符如何存储为二进制”,如 UTF-8、GBK、Big5。

​常见字符集示例​

  1. ​ASCII(1963年)​
  • 最早的字符集,仅包含 128 个字符(英文字母、数字、基本符号)。
  • 无法表示中文、日文等非拉丁文字。
  1. ​GB2312(1980年)​
  • 中国国家标准,收录 6763 个汉字,适用于简体中文。
  • 采用 ​​2字节编码​​(兼容 ASCII)。
  1. ​GBK(1993年)​
  • GB2312 的扩展,支持 21886 个字符(包括繁体字、生僻字)。
  • 仍然是 ​​2字节固定长度编码​​。
  1. ​Unicode(1991年至今)​
  • 国际统一字符集,目标涵盖全球所有文字(目前超过 14 万个字符)。
  • ​编码方式​​ 包括 UTF-8(变长,1-4字节)、UTF-16(2或4字节)、UTF-32(固定4字节)。

​为什么需要不同的字符集?​

  • ​早期计算机存储有限​​(ASCII 只用 7 位存储字符)。
  • ​不同国家/地区制定自己的标准​​(如中文用 GBK,日文用 Shift_JIS)。
  • ​Unicode 的出现解决了全球字符统一问题​​,但编码方式(如 UTF-8)影响存储和传输效率。

字符集和编码
https://weihehe.top/2025/06/25/字符集/
作者
weihehe
发布于
2025年6月25日
许可协议