CSV 데이터 정제 입문｜보이지 않는 문자·공백·중복 제거

데이터 정제란

데이터 정제(Data Cleansing)는 데이터의 오류·노이즈·불일치를 찾아 수정·삭제하고, 분석이나 시스템 연동에 쓸 수 있게 만드는 작업입니다. CSV에서 가장 자주 발생하는 문제는 텍스트 값 안에 숨어 있는 보이지 않는 문자, 값 앞뒤의 불필요한 공백, 문자 인코딩 문제, 그리고 키 열의 중복 레코드입니다.

정제는 선택이 아닌 필수입니다. ID 열에 보이지 않는 문자 하나가 있으면 화면에서 동일해 보이는 두 값이 매칭에 실패합니다. 이메일 주소 뒤에 공백이 있으면 데이터베이스에 중복 계정이 생깁니다. 이런 문제들은 눈으로 발견할 수 없고, 나중에 시스템이 예상치 못하게 오작동할 때야 드러납니다.

CSV에서 발생하는 더티 데이터의 종류

보이지 않는 문자

보이지 않는 문자는 눈에 보이는 표시는 없지만 문자열 내에 자리를 차지하는 유니코드 코드 포인트입니다. 주요 예시:

제로 너비 공백(U+200B) — 웹 페이지, PDF, 메신저에서 복사할 때 자주 포함됨
줄 바꿈 없는 공백(U+00A0) — 일반 공백과 동일하게 보이지만 문자열 비교에서는 다른 문자로 처리됨
바이트 순서 표시(U+FEFF) — 파일을 이어 붙일 때 중간에 BOM이 섞여 들어가는 경우 발생
제어 문자(U+0000–U+001F) — 레거시 ERP·메인프레임 시스템 내보내기에 포함되는 경우 있음

이 문자들은 매칭 실패, 검색 누락, 가져오기 오류를 일으키며 전용 도구 없이는 진단이 매우 어렵습니다. CSV 단일 검사로 감지하고 영향받은 행을 정확히 확인할 수 있습니다.

앞뒤 공백(트림)

값 앞이나 뒤의 공백·탭은 대부분의 스프레드시트나 텍스트 편집기에서 눈에 보이지 않습니다. ”user@example.com”과 ”user@example.com “은 화면에서 동일하지만 서로 다른 문자열입니다. 이로 인해:

데이터베이스 조회·JOIN 실패 — 저장된 값에 공백이 있어 쿼리가 일치하는 항목을 찾지 못함
동일해 보이는 키를 가진 중복 레코드가 데이터베이스 제약조건에서 별개 항목으로 허용됨
앞 공백이 정렬 순서를 바꿔 보고서 정렬·그룹화 오류 발생

전각·반각 불일치

한국어·일본어 데이터에서는 동일한 문자가 전각(ａ, １, ！) 또는 반각(a, 1, !) 형식으로 나타날 수 있습니다. 데이터에 두 형식이 섞이면 — 여러 사람이 입력할 때 흔히 발생 — 같아야 할 값이 일치하지 않습니다. 가져오기 전에 코드·ID 열을 반각으로 통일하면 이런 눈에 보이지 않는 불일치를 방지할 수 있습니다.

중복 레코드

중복 행이나 키 열(ID, 이메일, 상품 코드)의 중복 값은 가져오기 시 유일 제약 위반을 일으키고 병합 시 모호한 결과를 생성합니다. 공백이나 보이지 않는 문자 차이로 생긴 “겉보기 중복” — 화면에서는 동일하지만 실제로는 다른 값 — 도 주의해야 합니다. 자세한 내용은 중복 데이터 가이드를 참고하세요.

인코딩 문제

깨진 문자는 단순한 표시 문제가 아닙니다. 문자열 비교, 패턴 매칭, 유효한 텍스트를 기대하는 모든 후속 처리를 망가뜨립니다. 다른 정제 작업보다 인코딩을 먼저 수정해야 합니다. 깨진 텍스트에 정제를 적용하면 더 나쁜 결과가 나옵니다. 인코딩 문제를 참고하세요.

더티 데이터가 생기는 이유

브라우저·PDF에서 복사·붙여넣기 — 눈에 보이지 않게 제로 너비 공백과 줄 바꿈 없는 공백을 텍스트에 주입함
CRM·ERP·레거시 시스템 내보내기 — 필드를 공백으로 패딩하거나 내부 데이터 표현의 제어 문자를 포함하거나 지역 인코딩으로 내보내는 경우 많음
직접 데이터 입력 — 실수로 앞에 공백 추가, 불일치 대소문자, 전각·반각 혼용이 시간이 지나면서 쌓임
스프레드시트 수식 — CONCATENATE 등의 함수가 실수로 여분의 공백을 추가하거나 인코딩을 변경할 수 있음
파일 병합·이어 붙이기 — 정규화 없이 서로 다른 출처의 파일을 합치면 각 출처의 불일치가 합쳐진 파일에 유입됨

단계별 정제 워크플로

인코딩 먼저 수정 — 글자가 깨져 보인다면 글자 깨짐 복원으로 UTF-8로 변환합니다. 깨진 텍스트에 다른 정제를 적용하면 잘못된 결과가 나옵니다.
형식 확인 — 형식·기본 검사를 실행해 인코딩, 구분자, 열 수, 빈 행, 헤더 중복을 확인합니다. 데이터를 건드리기 전에 구조적 문제를 먼저 수정합니다.
데이터 품질 문제 감지 — CSV 단일 검사를 실행합니다. 보이지 않는 문자(포함된 행 표시), 앞뒤 공백, 중복 ID, 전각·반각 불일치를 보고합니다.
수정 적용 — “문제 일괄 수정”으로 모든 감지된 수정을 원클릭으로 적용하거나 항목별로 처리합니다. 모든 수정은 브라우저 안에서만 이루어지며 서버로 업로드되지 않습니다.
다운로드 후 재확인 — 정제된 CSV를 다운로드하고 단일 검사를 다시 실행해 시스템에 업로드하기 전에 문제가 0개임을 확인합니다.

전·후 예시

웹 페이지에서 일부 값을 복사·붙여넣기한 사용자 ID 열:

user_id,name
U001,홍길동
U002,김철수
U003 ,이영희

2행에는 “U002” 뒤에 제로 너비 공백, 3행에는 “U003” 뒤에 일반 공백이 있습니다. 화면에서는 보이지 않습니다. 단일 검사를 실행하고 수정을 적용하면:

user_id,name
U001,홍길동
U002,김철수
U003,이영희

세 ID 모두 데이터베이스 조회나 JOIN 작업에서 올바르게 매칭되는 깨끗한 문자열이 됩니다.

정제하지 말아야 할 때

감지된 모든 “문제”가 실제로 오류인 것은 아닙니다. 일괄 수정 적용 전에 검토하세요:

의도적인 값 내 공백 — 일부 상품명이나 주소는 정당하게 공백으로 시작하거나 끝날 수 있습니다. 트림 전에 표시된 행을 검토하세요.
의도적인 중복 — 일부 테이블은 같은 키가 여러 번 나와도 됩니다(주문 항목, 거래 내역 등). 중복을 제거하기 전에 데이터 구조를 파악하세요.
고유 명사의 전각 문자 — 한국어·일본어 데이터에서 이름의 전각 문자는 의도적이고 올바를 수 있습니다. 반각이 필요한 열(숫자 코드, 날짜, ID)에만 정규화를 적용하세요.

도구로 열기

CSV 단일 검사 — 보이지 않는 문자, 트림, 중복 ID
형식·기본 검사 — 인코딩, 구분자, 열 불일치
글자 깨짐 복원 — 정제 전 깨진 텍스트 먼저 수정
중복 데이터 가이드 — 중복 감지 및 처리 상세 방법

홈으로 · CSV 단일 검사 사용