CSVとは?
カンマ区切りでデータを格納するテキスト形式の基礎知識と、業務で役立つポイントをまとめます。
CSVの基本
CSV(Comma-Separated Values)は、カンマで区切られたテキスト形式のデータファイルです。1行が1レコード、各列はカンマで区切られ、多くの場合1行目がヘッダー(列名)として使われます。
CSVの例
id,name,email 1,山田太郎,yamada@example.com 2,佐藤花子,sato@example.com
このように、表形式のデータをそのままテキストで表現できるため、Excel・データベース・Webアプリ間のデータ受け渡しに広く使われています。
CSVのメリット
- 汎用性:どのOS・アプリでも開きやすく、システム間連携の標準的な形式の一つです。
- 軽量:バイナリ形式に比べてサイズが小さく、メール添付やバッチ処理に向いています。
- 可読性:テキストエディタで開けるため、内容の確認や簡易編集がしやすいです。
区切り文字について
「CSV」という名前の通り、多くの場合はカンマ(,)が区切り文字ですが、地域やアプリによってはセミコロン(;)やタブが使われることがあります。特に欧州では小数点にカンマを使うため、セミコロン区切りのCSVがよく見られます。CSVチェッカーでは区切り文字の自動検出や手動指定が可能です。
文字コード(エンコーディング)
CSVはテキストファイルなので、文字コードの設定が重要です。日本語では主に次のようなものがあります。
- UTF-8:国際的にも標準的。BOM付きにするとExcelで正しく開きやすいです。
- Shift_JIS(CP932):日本の業務システムでよく使われます。Excelで保存するとこの形式になることが多いです。
文字コードが合っていないと文字化けが発生します。詳しくは文字化け・エンコーディングのトラブルをご覧ください。
CSVとExcelの違い
Excel(.xlsx)はセル・書式・数式・複数シートなどを持つバイナリ形式です。CSVは「プレーンなテキストの表データ」に特化しており、書式は持たず、1ファイル=1シートのようなイメージです。データの受け渡しやインポートにはCSVが使われることが多く、CSVとExcelの違いで詳しく比較しています。
CSVで気をつけたいこと
CSVは単純な形式だからこそ、次のようなトラブルが起こりがちです。
- 重複ID:同じIDが複数行あると、DB登録やマッチングでエラーになります。重複データの見つけ方を参照してください。
- 不可視文字:コピペや他システム由来のデータに、見えない制御文字が含まれることがあります。CSVエラーガイドで対処法を解説しています。
- 列数不一致:行によって列の数が違うと、インポート時にエラーになることがあります。形式・基本チェックで事前に検出できます。