文字化け・エンコーディングのトラブルと対処法
CSVの文字化けの原因と、UTF-8への変換で解消する方法を説明します。
文字化けとは
CSVはテキストファイルなので、どの文字コード(エンコーディング)で保存されているかが重要です。ファイルを「別の文字コードとして」開くと、文字が読めない記号や□に変わってしまいます。これが一般的にいう「文字化け」です。
よくある原因
Shift_JISで保存されたファイルをUTF-8として開く(またはその逆)
日本のWindowsでは、Excelで「CSV(カンマ区切り)」で保存すると、多くの場合Shift_JIS(CP932)になります。一方、Webや現代のシステムではUTF-8が標準的なことが多いです。Shift_JISのファイルをUTF-8として開くと日本語が文字化けし、UTF-8のファイルをShift_JISとして開いても同様に文字化けします。
BOMの有無
UTF-8には「BOM(Byte Order Mark)」付きとBOMなしがあります。ExcelはUTF-8 BOM付きでないと、UTF-8のCSVを正しく認識しないことがあります。BOMなしのUTF-8をExcelで開くと、先頭の文字が化けたり、列の区切りがずれたりすることがあるため、Excelで開く用途の場合はUTF-8 BOMで保存するのが安全です。
対処法の流れ
- 元の文字コードを特定する:ファイルがShift_JISで保存されているのか、UTF-8なのか、EUC-JPなのかを確認します。当サイトの形式・基本チェックでは、アップロードしたCSVの文字コードを自動検出して表示します。
- 目的に合った形式に変換する:多くの場合、UTF-8(BOM付き)に変換すれば、ExcelでもWebでも扱いやすくなります。文字化け復元ツールでは、自動検出した文字コードで読み直し、UTF-8 BOMでダウンロードできます。ファイルはサーバーに送らず、ブラウザ内だけで処理されます。
- 変換後のファイルで再度チェックする:変換後に形式・基本チェックや単体チェックをかけると、文字コードが正しくUTF-8になっているか、内容に問題がないかを確認できます。
どの文字コードを選べばよいか
- 新しいシステム・Web・国際対応:UTF-8(BOM付きでExcel開くならBOM付き)がおすすめです。
- 既存の日本の業務システム:相手先がShift_JISを要求している場合は、その形式で保存する必要があります。当ツールのダウンロードではUTF-8 BOMを付与するオプションがあり、必要に応じて別ツールでShift_JISに戻す運用も可能です。
まとめ
文字化けは「保存時の文字コード」と「開くときの文字コード」が一致していないことが原因です。CSVチェッカーでは、文字化け復元で元の文字コードを検出し、UTF-8 BOMに変換してダウンロードできるため、データを外部に送らずに安全に解消できます。CSVエラーガイドでも、文字化けを含む代表的なエラーをまとめています。