字符编码|面向IT护照考试整理ASCII、Unicode、UTF-8、Shift_JIS的区别
面向IT护照考试,整理字符编码的基础知识(ASCII、Unicode、UTF-8、Shift_JIS、EUC-JP)以及乱码产生的原因。
什么是字符编码
字符编码是计算机内部用数值表示字符的规则。可以将其分为编码体系(字符与编号的对应表)和编码方式(将编号转换为字节序列的方法)两部分来理解。
主要字符编码
ASCII
ASCII 是1963年制定的基本编码,用7位表示英文字母大写、英文字母小写、数字和符号。需要记住的是,它无法表示日语。
JIS 编码系列
JIS 编码系列是日本工业标准规定的日语编码,JIS X 0208 收录了包括汉字在内的6,879个字符。作为编码方式,Shift_JIS(SJIS) 广泛用于 Windows 系统,EUC-JP 用于 UNIX 系统。
Unicode 系列
Unicode 系列是统一处理全球字符的国际标准。作为代表性的编码方式,UTF-8 是可变长编码(1~4字节),是 Web 标准的主流;UTF-16 基本为2字节固定(辅助字符为4字节);UTF-32 始终为4字节。
乱码的主要原因
乱码的主要原因是发送方和接收方使用了不同的字符编码。例如,试图用 Shift_JIS 解释 UTF-8 页面时就会发生。通过在 HTTP 标头或 HTML 的 <meta charset="UTF-8"> 中明确指定字符编码,可以防止乱码。
字符编码的选择方法
| 用途 | 推荐编码 |
|---|---|
| 国际化 Web | UTF-8 |
| 现有 Windows 文件兼容 | Shift_JIS(保持兼容) |
| 新开发项目 | UTF-8 |
相关术语
BOM(字节顺序标记)
BOM 是附加在文件开头的字节顺序标识标记。在 UTF-8 中,需要注意是否带有 BOM。
代理对
代理对是 UTF-16 中,用4字节表示无法用2字节表示的字符(如表情符号)的机制。
IT护照考试的出题要点
IT护照考试中,会考查 ASCII、Shift_JIS、UTF-8 的特征比较、Unicode 的目的(统一全球字符)以及乱码的原因。
历年真题的典型模式
- “能够统一表示全球字符的字符编码是哪个?”型 → Unicode
- “Web 标准中常用的字符编码是哪个?”型 → UTF-8
相关术语
- 压缩(压缩(可逆/不可逆)与 JPEG/PNG/MP3)
- 进制转换(二进制/十六进制与逻辑运算)
- HTTP(HTTP/HTTPS 的原理)
学习技巧
按三大系列(ASCII / JIS 系列 / Unicode 系列)记忆,当前主流是 UTF-8。理解乱码是发送与接收的编码不一致所致,对考试备考非常有效。
总结
掌握主要字符编码的谱系、主流 UTF-8 以及乱码的原因,就能在相关题目上得分。如需全面练习技术类内容,请参考技术类汇总;如需进行实战演练,请使用模拟考试。
関連記事
5G是什么?|面向IT护照考试整理的4G差异与活用案例
针对IT护照考试,整理了5G(第5代移动通信)的三大特征(高速、低延迟、多设备同时连接)、与4G的差异,以及在自动驾驶、远程医疗中的应用。
AI・机器学习基础|IT护照考试高频关键词整理
整理AI、机器学习、深度学习的关系,监督学习/无监督学习/强化学习的区别,以及生成式AI、LLM等IT护照考试中涉及的AI相关术语。
算法与计算量|面向IT护照的O记法及搜索·排序基础
整理面向IT护照考试的算法基础、线性搜索·二分搜索、冒泡排序·快速排序、计算量的O记法。