CSVとは?

カンマ区切りでデータを格納するテキスト形式の基礎知識と、業務で役立つポイントをまとめます。

CSVの基本

CSV(Comma-Separated Values)は、カンマで区切られたテキスト形式のデータファイルです。1行が1レコード、各列はカンマで区切られ、多くの場合1行目がヘッダー(列名)として使われます。

CSVの例

id,name,email
1,山田太郎,yamada@example.com
2,佐藤花子,sato@example.com

このように、表形式のデータをそのままテキストで表現できるため、Excel・データベース・Webアプリ間のデータ受け渡しに広く使われています。

CSVのメリット

区切り文字について

「CSV」という名前の通り、多くの場合はカンマ(,)が区切り文字ですが、地域やアプリによってはセミコロン(;)タブが使われることがあります。特に欧州では小数点にカンマを使うため、セミコロン区切りのCSVがよく見られます。CSVチェッカーでは区切り文字の自動検出や手動指定が可能です。

文字コード(エンコーディング)

CSVはテキストファイルなので、文字コードの設定が重要です。日本語では主に次のようなものがあります。

文字コードが合っていないと文字化けが発生します。詳しくは文字化け・エンコーディングのトラブルをご覧ください。

CSVとExcelの違い

Excel(.xlsx)はセル・書式・数式・複数シートなどを持つバイナリ形式です。CSVは「プレーンなテキストの表データ」に特化しており、書式は持たず、1ファイル=1シートのようなイメージです。データの受け渡しやインポートにはCSVが使われることが多く、CSVとExcelの違いで詳しく比較しています。

CSVで気をつけたいこと

CSVは単純な形式だからこそ、次のようなトラブルが起こりがちです。

CSVの歴史とRFC 4180規格

CSVはコンピュータ黎明期から使われてきた形式です。2005年にRFC 4180として、カンマ・クォート・改行の扱い方が公式に定義されました。古い形式ながら、そのシンプルさとほぼすべてのソフトウェアによるサポートにより、現在でも最も広く使われるデータ交換形式の一つです。CSVを開いたり作成したりするために専用アプリは必要ありません。

実務でCSVが使われる場面

CSVは、ほぼあらゆる業界で活用されています。

CSV vs JSON vs XML:どの形式を使うべきか?

テキストベースのデータ形式はCSVだけではありません。選択の参考に簡単に比較します。

商品リストや顧客エクスポートのようにデータが単純な行・列の表構造であれば、CSVがほぼ常に最適な選択です。ネストされたオブジェクトや複数の関連テーブル、API連携が必要な場合はJSONが適しています。

CSVトラブルの原因になりやすい3つのミス

実務で起きるCSVエラーの多くは、次の3つのミスに起因します。

  1. 文字コードの不一致:Shift_JISやEUC-JPで保存したファイルをUTF-8環境で開くと文字化けが発生します。ファイルを渡す前に必ず文字コードを確認しましょう。形式・基本チェックツールを使えば自動で検出できます。
  2. 区切り文字を含むフィールドの未処理山田, 太郎のようにカンマを含むフィールドをダブルクォートで囲まないと列構造が崩れます。大量データでは目視で見つけるのが難しく、列数不一致エラーの最多原因の一つです。
  3. コピー&ペーストで混入した不可視文字:WebページやPDF、チャットツールからデータをコピーすると、ゼロ幅スペース・ノーブレークスペースなどの制御文字が混入します。Excelでは見えませんが、DBやAPIでのインポート失敗の原因になります。CSVチェックツールでワンクリックで検出・除去できます。

トップへ戻る · CSVチェックを始める