文字コード|ASCII・Unicode・UTF-8・Shift_JISの違いをITパスポート向けに整理
文字コードの基本(ASCII・Unicode・UTF-8・Shift_JIS・EUC-JP)と文字化けの原因をITパスポート試験向けに整理します。
文字コードとは
文字コードとは、コンピュータ内部で文字を数値で表現するための規約です。コード体系(文字と番号の対応表)と符号化方式(番号をバイト列に変換する方法)の二つに分けて理解するとよいでしょう。
主要な文字コード
ASCII(アスキー)
ASCII は 1963 年に策定された、7 ビットで英大文字・英小文字・数字・記号を表現する基本コードです。日本語は表現できない点を押さえておきましょう。
JIS コード系
JIS コード系は日本工業規格による日本語コードで、JIS X 0208 は漢字を含む 6,879 文字を収録します。符号化方式としては、Shift_JIS(SJIS) が Windows 系で広く使われ、EUC-JP が UNIX 系で使われました。
Unicode 系
Unicode 系は世界中の文字を統一的に扱う国際規格です。符号化方式として代表的な UTF-8 は可変長(1 〜 4 バイト)で Web 標準の主流であり、UTF-16 は基本 2 バイト固定(補助文字は 4 バイト)、UTF-32 は常に 4 バイトです。
文字化けの主な原因
文字化けの主な原因は、送信側と受信側で異なる文字コードを使うことです。例えば UTF-8 のページを Shift_JIS で解釈しようとすると発生します。HTTP ヘッダーや HTML の <meta charset="UTF-8"> で文字コードを明示することで防げます。
文字コードの選び方
| 用途 | 推奨コード |
|---|---|
| 国際対応 Web | UTF-8 |
| 既存 Windows ファイル互換 | Shift_JIS(互換維持) |
| 新規開発全般 | UTF-8 |
関連用語
BOM(Byte Order Mark)
BOM はファイル先頭に付けるバイト並び順の識別マークです。UTF-8 では BOM ありなしを意識する必要があります。
サロゲートペア
サロゲートペアは、UTF-16 で 2 バイトで表せない文字(絵文字など)を 4 バイトで表現する仕組みです。
ITパスポート試験での出題ポイント
IT パスポート試験では、ASCII・Shift_JIS・UTF-8 の特徴比較や、Unicode の目的(世界の文字統一)、文字化けの原因が出題されます。
過去問の典型パターン
- 「世界中の文字を統一的に表現する文字コードはどれか」型 → Unicode
- 「Web で標準的に使われる文字コードはどれか」型 → UTF-8
関連用語
- 圧縮(圧縮(可逆・非可逆)と JPEG/PNG/MP3)
- 進数変換(2進数・16進数と論理演算)
- HTTP(HTTP/HTTPSの仕組み)
学習のコツ
3 系列(ASCII / JIS 系 / Unicode 系)で覚え、現在の主流は UTF-8 です。文字化けは送信と受信のコード不一致と理解しておけば、試験対策として有効です。
まとめ
主要文字コードの系譜・主流 UTF-8・文字化けの原因を押さえれば、関連問題は得点可能です。テクノロジ系を網羅的に演習するならテクノロジ系まとめを、本番形式は模擬試験をご活用ください。