ブログ

文字コード|ASCII・Unicode・UTF-8・Shift_JISの違いをITパスポート向けに整理

2026年4月27日

文字コードの基本(ASCII・Unicode・UTF-8・Shift_JIS・EUC-JP)と文字化けの原因をITパスポート試験向けに整理します。

タグIT パスポートテクノロジ系文字コード

文字コードとは

文字コードとは、コンピュータ内部で文字を数値で表現するための規約です。コード体系(文字と番号の対応表)と符号化方式(番号をバイト列に変換する方法)の二つに分けて理解するとよいでしょう。

主要な文字コード

ASCII(アスキー)

ASCII は 1963 年に策定された、7 ビットで英大文字・英小文字・数字・記号を表現する基本コードです。日本語は表現できない点を押さえておきましょう。

JIS コード系

JIS コード系は日本工業規格による日本語コードで、JIS X 0208 は漢字を含む 6,879 文字を収録します。符号化方式としては、Shift_JIS(SJIS) が Windows 系で広く使われ、EUC-JP が UNIX 系で使われました。

Unicode 系

Unicode 系は世界中の文字を統一的に扱う国際規格です。符号化方式として代表的な UTF-8 は可変長(1 〜 4 バイト)で Web 標準の主流であり、UTF-16 は基本 2 バイト固定(補助文字は 4 バイト)、UTF-32 は常に 4 バイトです。

文字化けの主な原因

文字化けの主な原因は、送信側と受信側で異なる文字コードを使うことです。例えば UTF-8 のページを Shift_JIS で解釈しようとすると発生します。HTTP ヘッダーや HTML の <meta charset="UTF-8"> で文字コードを明示することで防げます。

文字コードの選び方

用途推奨コード
国際対応 WebUTF-8
既存 Windows ファイル互換Shift_JIS(互換維持)
新規開発全般UTF-8

関連用語

BOM(Byte Order Mark)

BOM はファイル先頭に付けるバイト並び順の識別マークです。UTF-8 では BOM ありなしを意識する必要があります。

サロゲートペア

サロゲートペアは、UTF-16 で 2 バイトで表せない文字(絵文字など)を 4 バイトで表現する仕組みです。

ITパスポート試験での出題ポイント

IT パスポート試験では、ASCII・Shift_JIS・UTF-8 の特徴比較や、Unicode の目的(世界の文字統一)、文字化けの原因が出題されます。

過去問の典型パターン

  • 「世界中の文字を統一的に表現する文字コードはどれか」型 → Unicode
  • 「Web で標準的に使われる文字コードはどれか」型 → UTF-8

関連用語

学習のコツ

3 系列(ASCII / JIS 系 / Unicode 系)で覚え、現在の主流は UTF-8 です。文字化けは送信と受信のコード不一致と理解しておけば、試験対策として有効です。

まとめ

主要文字コードの系譜・主流 UTF-8・文字化けの原因を押さえれば、関連問題は得点可能です。テクノロジ系を網羅的に演習するならテクノロジ系まとめを、本番形式は模擬試験をご活用ください。