重複データの見つけ方と対処法
CSVで重複IDや重複行がなぜ問題になるか、どう検出・対処するかを解説します。
重複が問題になる理由
CSVをデータベースにインポートするとき、主キーやユニークキーに重複があると、制約違反でエラーになります。また、2つのCSVをマージする際、同じキーが複数あると「どれを正とするか」が曖昧になり、意図しない上書きや行の重複が発生することがあります。そのため、インポートやマージの前に重複を検出し、業務ルールに合わせて対処することが重要です。
どこを「キー」として見るか
重複チェックでは、「どの列を一意のキーとみなすか」を決める必要があります。例としては次のような列がよく使われます。
- ID・会員番号・顧客コード
- メールアドレス
- 商品コード・SKU
- 日付+他の列の組み合わせ
CSV単体チェックでは、重複を検出する列を自動で候補として提示するか、ユーザーが列を選べるようにしています。キーとして使う列だけを選んでチェックすると、効率的に重複行を洗い出せます。
検出のしかた
当ツールでは、選択した列(またはデフォルトのキー候補)について、同じ値が2行以上ある場合に「重複ID」として検出します。該当する行番号と値を一覧表示するため、どの行が重複しているかをすぐに確認できます。検出結果はエクスポートも可能なので、別のツールで修正する際のメモとしても使えます。
対処の考え方
- 本当の重複:同じ内容の行が複数ある場合は、1行だけ残して他を削除するか、Excelなどで重複削除を行います。
- キーは同じで内容が違う:データの取り込みミスや、時系列で更新された複数バージョンが混在している可能性があります。業務で「どれを正とするか」を決めたうえで、残す行を選び、それ以外を削除または統合します。
- 重複を許容する設計:分析用で、同じIDが複数回出てきても問題ない場合は、チェックで把握するだけにして、削除しないという選択もあります。
2ファイル比較での重複の影響
旧版と新版のCSVを2ファイル比較するとき、キー列に重複があると、差分の表示が「追加・削除」ではなく「変更」ばかりになることがあります。これは、行の対応関係がずれるためです。比較前に、キー列の重複を単体チェックで解消しておくと、差分結果が分かりやすくなります。詳しくはCSVエラーガイドも参照してください。
ツールを開く
- CSV単体チェック — 重複IDの一覧と一括修正
- 形式・基本チェック — インポート前の列・構造の確認
- 2ファイル比較 — バージョン間の変更点
- CSVクリーニングガイド — クレンジング全体の流れ