博客

字符编码|面向IT护照考试整理ASCII、Unicode、UTF-8、Shift_JIS的区别

2026年4月27日

面向IT护照考试,整理字符编码的基础知识(ASCII、Unicode、UTF-8、Shift_JIS、EUC-JP)以及乱码产生的原因。

标签IT护照技术类字符编码

什么是字符编码

字符编码是计算机内部用数值表示字符的规则。可以将其分为编码体系(字符与编号的对应表)和编码方式(将编号转换为字节序列的方法)两部分来理解。

主要字符编码

ASCII

ASCII 是1963年制定的基本编码,用7位表示英文字母大写、英文字母小写、数字和符号。需要记住的是,它无法表示日语。

JIS 编码系列

JIS 编码系列是日本工业标准规定的日语编码,JIS X 0208 收录了包括汉字在内的6,879个字符。作为编码方式,Shift_JIS(SJIS) 广泛用于 Windows 系统,EUC-JP 用于 UNIX 系统。

Unicode 系列

Unicode 系列是统一处理全球字符的国际标准。作为代表性的编码方式,UTF-8 是可变长编码(1~4字节),是 Web 标准的主流;UTF-16 基本为2字节固定(辅助字符为4字节);UTF-32 始终为4字节。

乱码的主要原因

乱码的主要原因是发送方和接收方使用了不同的字符编码。例如,试图用 Shift_JIS 解释 UTF-8 页面时就会发生。通过在 HTTP 标头或 HTML 的 <meta charset="UTF-8"> 中明确指定字符编码,可以防止乱码。

字符编码的选择方法

用途推荐编码
国际化 WebUTF-8
现有 Windows 文件兼容Shift_JIS(保持兼容)
新开发项目UTF-8

相关术语

BOM(字节顺序标记)

BOM 是附加在文件开头的字节顺序标识标记。在 UTF-8 中,需要注意是否带有 BOM。

代理对

代理对是 UTF-16 中,用4字节表示无法用2字节表示的字符(如表情符号)的机制。

IT护照考试的出题要点

IT护照考试中,会考查 ASCII、Shift_JIS、UTF-8 的特征比较、Unicode 的目的(统一全球字符)以及乱码的原因。

历年真题的典型模式

  • “能够统一表示全球字符的字符编码是哪个?”型 → Unicode
  • “Web 标准中常用的字符编码是哪个?”型 → UTF-8

相关术语

学习技巧

按三大系列(ASCII / JIS 系列 / Unicode 系列)记忆,当前主流是 UTF-8。理解乱码是发送与接收的编码不一致所致,对考试备考非常有效。

总结

掌握主要字符编码的谱系、主流 UTF-8 以及乱码的原因,就能在相关题目上得分。如需全面练习技术类内容,请参考技术类汇总;如需进行实战演练,请使用模拟考试

関連記事

Pro

Pro 会員になる

この機能は Pro 会員限定です。月額 ¥980 で、合格まで一気に走り抜ける機能がすべて使えます。

Pro に加入する