중복 데이터 찾기와 대처법
CSV에서 중복 ID·중복 행이 왜 문제가 되는지, 어떻게 찾고 대처하는지 정리합니다.
중복이 문제가 되는 이유
CSV를 데이터베이스에 가져올 때 기본키나 유니크 키에 중복이 있으면 제약 위반으로 오류가 납니다. 두 CSV를 병합할 때도 같은 키가 여러 개 있으면 “어느 것을 기준으로 할지”가 불명확해져, 의도치 않은 덮어쓰기나 행 중복이 생길 수 있습니다. 그래서 가져오기·병합 전에 중복을 검사하고, 업무 규칙에 맞게 처리하는 것이 중요합니다.
어떤 열을 “키”로 볼지
중복 검사에서는 “어떤 열을 하나의 키로 볼지”를 정해야 합니다. 예를 들어 다음 같은 열이 자주 쓰입니다.
- ID·회원 번호·고객 코드
- 이메일
- 상품 코드·SKU
- 날짜와 다른 열의 조합
CSV 단일 검사에서는 중복을 검사할 열을 자동 후보로 보여 주거나, 사용자가 열을 선택할 수 있습니다. 키로 쓸 열만 골라 검사하면 중복 행을 빠르게 찾을 수 있습니다.
검사 방법
이 도구에서는 선택한 열(또는 기본 키 후보)에 같은 값이 두 행 이상 있으면 “중복 ID”로 표시합니다. 해당 행 번호와 값을 목록으로 보여 주므로, 어느 행이 중복인지 바로 확인할 수 있습니다. 검사 결과는 내보내기도 가능해, 다른 도구에서 수정할 때 메모로 쓸 수 있습니다.
대처 생각
- 진짜 중복: 내용이 같은 행이 여러 개면 한 행만 남기고 나머지는 삭제하거나, 엑셀 등에서 중복 제거를 합니다.
- 키는 같은데 내용이 다름: 데이터 입력 오류이거나, 시점이 다른 여러 버전이 섞였을 수 있습니다. 업무상 “어느 것을 기준으로 할지”를 정한 뒤, 그 행만 남기고 나머지는 삭제하거나 통합합니다.
- 중복을 허용하는 설계: 분석용으로 같은 ID가 여러 번 나와도 괜찮다면, 검사로만 파악하고 삭제하지 않을 수도 있습니다.
두 파일 비교에서 중복의 영향
이전 버전과 새 버전 CSV를 두 파일 비교할 때, 키 열에 중복이 있으면 차이가 “추가·삭제”가 아니라 “변경”으로만 보일 수 있습니다. 행의 대응 관계가 어긋나기 때문입니다. 비교 전에 키 열 중복을 단일 검사로 정리해 두면 차이 결과가 더 명확해집니다. 자세한 내용은 CSV 오류 가이드도 참고하세요.
도구로 열기
- CSV 단일 검사 — 중복 ID 목록·일괄 수정
- 형식·기본 검사 — 가져오기 전 열·구조 확인
- 두 CSV 비교 — 버전 간 변경분 확인
- CSV 정제 가이드 — 정제 전체 흐름