文字化け・エンコーディングのトラブルと対処法

CSVの文字化けの原因と、UTF-8への変換で解消する方法を説明します。

文字コード(エンコーディング)とは

文字コードとは、文字(ひらがな、アルファベット、数字、記号)とファイルに格納するバイト列の対応規則です。テキストファイルを保存するとき、すべての文字がエンコーディングに従ってバイトに変換されます。ファイルを開くときは、そのバイトが理想的には同じエンコーディングで文字に戻されます。

CSVはプレーンテキストなので、ファイル内のすべての文字にエンコーディングが影響します。保存時と開くときのエンコーディングが異なると、文字が誤って解釈され、読めない記号・疑問符・□として表示されます。これが「文字化け」です。

主な文字コードと発生する環境

UTF-8
Webと現代システムの標準です。すべての言語・特殊文字に対応しています。ほとんどのAPI・データベース・現代アプリケーションがUTF-8を前提としています。すべての新規ファイルに推奨されます。
UTF-8 with BOM
ファイル先頭に3バイトの接頭辞(EF BB BF)があるUTF-8です。ExcelはこのBOMを使ってUTF-8ファイルを認識し正しく開きます。BOMなしだとExcelが地域エンコーディングをデフォルトとして使い、日本語などの非ASCII文字が文字化けします。CSVをExcelで開く場合はUTF-8 BOMを使ってください。
Shift-JIS(CP932)
日本語Windowsのレガシーエンコーディングです。日本語Windowsのデフォルトエンコーディングであり、日本のERPシステムや旧バージョンのExcelからのエクスポートファイルに頻繁に使われます。
EUC-JP
古いUnixシステムや一部のLinuxサーバーで使われる日本語エンコーディングです。現代の日本語システムはほぼShift-JISかUTF-8に移行していますが、古いサーバーログや旧システムのデータに存在することがあります。
Windows-1252(CP1252)
英語・フランス語・ドイツ語・スペイン語など西ヨーロッパ言語のエンコーディングです。西ヨーロッパロケールのWindowsでは、ExcelのCSVデフォルトエンコーディングがUTF-8ではなくWindows-1252であることが多いです。

ExcelがCSVのテキストを文字化けさせる理由

ExcelのCSV処理はエンコーディング問題の最も一般的な原因です:

Excelから正しく保存するには:「名前を付けて保存」で「CSV UTF-8(コンマ区切り)(*.csv)」を選んでください。これがUTF-8 BOMファイルを生成するオプションです。

ファイルの文字コードを特定する方法

エンコーディング情報はファイルの内容に格納されないため、ファイルの内容だけから確実にエンコーディングを特定することはできません。ツールはバイトパターンの統計的解析で推測します。形式・基本チェックで検出された文字コードと信頼度を確認できます。検出が間違っているなら(プレビューで文字化け)、文字化け復元で手動でエンコーディングを指定できます。

正しいエンコーディングの特定に役立つ手がかり:

ステップバイステップ:文字化けしたCSVの修正方法

  1. 文字化け復元を開く文字化け復元に移動してファイルをアップロードエリアにドロップします。サーバーには送信されず、ファイルはブラウザ内だけで処理されます。
  2. 自動検出の文字コードを確認 — ツールが元の文字コードの最善の推測を表示します。最初の数行のプレビューを確認します。
  3. プレビューが正しく見えるなら — UTF-8 BOMでダウンロードします。
  4. プレビューがまだ文字化けしているなら — ドロップダウンから元の文字コードを手動で選択します。日本語ファイルはShift-JIS、韓国語はEUC-KR/CP949、西洋語はWindows-1252を試してください。
  5. UTF-8 BOMをダウンロード — ダウンロードされたファイルは正しい文字を持ち、ExcelやすべてのモダンシステムでこのJOINを正しく開けます。
  6. 確認 — 変換されたファイルを形式・基本チェックで実行して文字コードがUTF-8であることと内容が正しいことを確認します。

ワークフローに合った文字コードの選び方

予防策

トップへ戻る · 文字化け復元ツールを使う