CSV 데이터 정제 입문

CSV 품질을 높이기 위한 데이터 정제의 기본과 이 도구로 할 수 있는 일을 정리합니다.

데이터 정제란

데이터 정제(Data Cleansing)는 데이터의 오류·노이즈를 찾아 수정·삭제하고, 분석이나 시스템 연동에 쓸 수 있게 만드는 작업입니다. CSV라면 보이지 않는 문자 제거, 앞뒤 공백(트림), 중복 검사 등이 대표적입니다.

왜 필요한가

정제되지 않은 CSV를 그대로 DB에 넣거나 분석에 쓰면 다음 같은 문제가 생기기 쉽습니다.

사전에 정제해 두면 오류와 재작업을 줄이고 데이터 신뢰도를 높일 수 있습니다. CSV 오류 가이드에서도 관련 문제를 다룹니다.

보이지 않는 문자 제거

다른 시스템이나 웹에서 복사한 데이터에는 제로 너비 공백·제어 문자·전각 공백 등 눈에 보이지 않는 문자가 포함될 수 있습니다. 검색·비교를 흐리므로 제거하는 것이 좋습니다.

CSV 단일 검사에서는 “보이지 않는 문자”를 검사하고, 문제 일괄 수정 버튼으로 제거할 수 있습니다. 파일은 서버로 보내지 않고 브라우저 안에서만 처리됩니다.

앞뒤 공백(트림)

셀 앞뒤에 공백이나 탭이 있으면 “ A ”와 “A”가 서로 다른 값으로 취급되어, 중복 검사나 병합에서 의도와 다른 결과가 나올 수 있습니다. 트림은 그 앞뒤 공백을 없애는 작업입니다.

단일 검사에서는 “앞뒤 공백”을 검사하고, 일괄 수정으로 트림할 수 있습니다. 열별 “전각↔반각” 통일 옵션도 있어 표기 차이를 줄이기에도 유용합니다.

중복 검사와 대처

같은 ID나 이메일이 여러 행에 있으면 DB 유일 제약 위반이나 병합 시 덮어쓰기가 발생할 수 있습니다. 중복 데이터 가이드에서 자세히 설명하지만, 먼저 “중복 ID”로 검사해 해당 행을 확인한 뒤, 업무 규칙에 맞게 삭제·통합·무시 중 하나로 처리하면 됩니다. 이 도구는 중복 검사와 목록 표시까지 하며, 실제 삭제는 사용자가 다운로드한 CSV를 편집해 진행하는 형태입니다.

정제 흐름(이 도구 기준)

  1. 형식·기본 검사로 문자 코드·구분자·열 수·빈 줄을 확인합니다.
  2. 필요하면 글자 깨짐 복원으로 UTF-8 BOM으로 변환합니다.
  3. 단일 검사에서 CSV를 올리고, 보이지 않는 문자·중복 ID·앞뒤 공백을 검사합니다.
  4. “문제 일괄 수정”으로 적용한 뒤, 수정된 CSV를 다운로드합니다.

홈으로 · CSV 단일 검사 사용