CSV 데이터 정제 입문
CSV 품질을 높이기 위한 데이터 정제의 기본과 이 도구로 할 수 있는 일을 정리합니다.
데이터 정제란
데이터 정제(Data Cleansing)는 데이터의 오류·노이즈를 찾아 수정·삭제하고, 분석이나 시스템 연동에 쓸 수 있게 만드는 작업입니다. CSV라면 보이지 않는 문자 제거, 앞뒤 공백(트림), 중복 검사 등이 대표적입니다.
왜 필요한가
정제되지 않은 CSV를 그대로 DB에 넣거나 분석에 쓰면 다음 같은 문제가 생기기 쉽습니다.
- 검색·매칭에서 “같아 보이는 값”이 일치하지 않음(보이지 않는 문자·공백 차이)
- 기본키 중복으로 가져오기 오류
- 숫자·날짜가 문자열로 섞여 집계가 틀어짐
사전에 정제해 두면 오류와 재작업을 줄이고 데이터 신뢰도를 높일 수 있습니다. CSV 오류 가이드에서도 관련 문제를 다룹니다.
보이지 않는 문자 제거
다른 시스템이나 웹에서 복사한 데이터에는 제로 너비 공백·제어 문자·전각 공백 등 눈에 보이지 않는 문자가 포함될 수 있습니다. 검색·비교를 흐리므로 제거하는 것이 좋습니다.
CSV 단일 검사에서는 “보이지 않는 문자”를 검사하고, 문제 일괄 수정 버튼으로 제거할 수 있습니다. 파일은 서버로 보내지 않고 브라우저 안에서만 처리됩니다.
앞뒤 공백(트림)
셀 앞뒤에 공백이나 탭이 있으면 “ A ”와 “A”가 서로 다른 값으로 취급되어, 중복 검사나 병합에서 의도와 다른 결과가 나올 수 있습니다. 트림은 그 앞뒤 공백을 없애는 작업입니다.
단일 검사에서는 “앞뒤 공백”을 검사하고, 일괄 수정으로 트림할 수 있습니다. 열별 “전각↔반각” 통일 옵션도 있어 표기 차이를 줄이기에도 유용합니다.
중복 검사와 대처
같은 ID나 이메일이 여러 행에 있으면 DB 유일 제약 위반이나 병합 시 덮어쓰기가 발생할 수 있습니다. 중복 데이터 가이드에서 자세히 설명하지만, 먼저 “중복 ID”로 검사해 해당 행을 확인한 뒤, 업무 규칙에 맞게 삭제·통합·무시 중 하나로 처리하면 됩니다. 이 도구는 중복 검사와 목록 표시까지 하며, 실제 삭제는 사용자가 다운로드한 CSV를 편집해 진행하는 형태입니다.
정제 흐름(이 도구 기준)
- 형식·기본 검사로 문자 코드·구분자·열 수·빈 줄을 확인합니다.
- 필요하면 글자 깨짐 복원으로 UTF-8 BOM으로 변환합니다.
- 단일 검사에서 CSV를 올리고, 보이지 않는 문자·중복 ID·앞뒤 공백을 검사합니다.
- “문제 일괄 수정”으로 적용한 뒤, 수정된 CSV를 다운로드합니다.
도구로 열기
- CSV 단일 검사 — 보이지 않는 문자, 트림, 중복 ID
- 형식·기본 검사 — 문자 코드, 구분자, 열 불일치
- 글자 깨짐 복원 — 깨짐이 있으면 먼저 변환
- 중복 데이터 가이드 — 중복 처리 기준 정리