중복 데이터 찾기와 대처법

CSV에서 중복 ID·중복 행이 왜 문제가 되는지, 어떻게 찾고 대처하는지 정리합니다.

중복이 문제가 되는 이유

CSV를 데이터베이스에 가져올 때 기본키나 유니크 키에 중복이 있으면 제약 위반으로 오류가 납니다. 두 CSV를 병합할 때도 같은 키가 여러 개 있으면 “어느 것을 기준으로 할지”가 불명확해져, 의도치 않은 덮어쓰기나 행 중복이 생길 수 있습니다. 그래서 가져오기·병합 전에 중복을 검사하고, 업무 규칙에 맞게 처리하는 것이 중요합니다.

어떤 열을 “키”로 볼지

중복 검사에서는 “어떤 열을 하나의 키로 볼지”를 정해야 합니다. 예를 들어 다음 같은 열이 자주 쓰입니다.

CSV 단일 검사에서는 중복을 검사할 열을 자동 후보로 보여 주거나, 사용자가 열을 선택할 수 있습니다. 키로 쓸 열만 골라 검사하면 중복 행을 빠르게 찾을 수 있습니다.

검사 방법

이 도구에서는 선택한 열(또는 기본 키 후보)에 같은 값이 두 행 이상 있으면 “중복 ID”로 표시합니다. 해당 행 번호와 값을 목록으로 보여 주므로, 어느 행이 중복인지 바로 확인할 수 있습니다. 검사 결과는 내보내기도 가능해, 다른 도구에서 수정할 때 메모로 쓸 수 있습니다.

대처 생각

두 파일 비교에서 중복의 영향

이전 버전과 새 버전 CSV를 두 파일 비교할 때, 키 열에 중복이 있으면 차이가 “추가·삭제”가 아니라 “변경”으로만 보일 수 있습니다. 행의 대응 관계가 어긋나기 때문입니다. 비교 전에 키 열 중복을 단일 검사로 정리해 두면 차이 결과가 더 명확해집니다. 자세한 내용은 CSV 오류 가이드도 참고하세요.

홈으로 · 중복 검사하기