글자 깨짐·인코딩 문제와 대처법

CSV 글자 깨짐의 원인과 UTF-8로 바꿔 해결하는 방법을 설명합니다.

문자 인코딩이란

문자 인코딩은 문자(글자, 숫자, 기호)와 파일에 저장할 때 사용하는 바이트 시퀀스 사이의 대응 규칙입니다. 텍스트 파일을 저장할 때 모든 문자가 인코딩에 따라 바이트로 변환됩니다. 파일을 열 때는 그 바이트가 — 이상적으로는 — 동일한 인코딩으로 다시 문자로 변환됩니다.

CSV는 순수 텍스트이므로 파일의 모든 문자에 인코딩이 영향을 미칩니다. 파일을 저장할 때 사용한 인코딩과 열 때 사용하는 인코딩이 다르면 문자가 잘못 해석되어 깨진 기호, 물음표, 사각형(□)으로 표시됩니다. 이것이 “글자 깨짐”입니다.

주요 인코딩과 발생 환경

UTF-8
웹과 현대 시스템의 범용 표준입니다. 모든 언어와 특수 문자를 지원합니다. 대부분의 API, 데이터베이스, 현대 애플리케이션이 UTF-8을 기대합니다. 모든 새 파일에 권장됩니다.
UTF-8 with BOM
파일 시작에 3바이트 접두사(EF BB BF)가 있는 UTF-8입니다. 엑셀은 이 BOM을 사용해 UTF-8 파일을 인식하고 올바르게 엽니다. BOM 없이는 엑셀이 지역 인코딩을 기본으로 사용해 한글 등 비ASCII 문자를 깨뜨릴 수 있습니다. CSV를 엑셀에서 열 경우 UTF-8 BOM을 사용하세요.
EUC-KR / CP949
한국어 텍스트를 위한 레거시 인코딩입니다. 한국어 Windows에서 엑셀의 “CSV(쉼표로 분리)”로 저장하면 EUC-KR(CP949)이 되는 경우가 많습니다. 오래된 데이터베이스나 업무 시스템 내보내기에도 자주 사용됩니다.
Shift-JIS (CP932)
일본어 Windows의 레거시 인코딩입니다. 일본어 ERP 시스템이나 구형 엑셀에서 내보낸 파일에 자주 사용됩니다.
Windows-1252 (CP1252)
영어·프랑스어·독일어·스페인어 등 서유럽 언어를 위한 인코딩입니다. 서유럽 로케일 Windows에서 엑셀의 기본 CSV 인코딩이 UTF-8이 아닌 Windows-1252인 경우가 많습니다.

엑셀이 CSV 글자를 깨뜨리는 이유

엑셀의 CSV 처리는 인코딩 문제의 가장 흔한 원인입니다:

엑셀에서 올바르게 저장하려면: ”다른 이름으로 저장 → CSV UTF-8(쉼표로 분리)(*.csv)”를 선택하세요. 이 옵션이 UTF-8 BOM 파일을 생성합니다.

파일의 인코딩 확인 방법

인코딩 정보는 파일 내용에 저장되지 않으므로 파일 내용만으로 인코딩을 확실하게 알 수는 없습니다. 도구들은 바이트 패턴의 통계 분석으로 추정합니다. 형식·기본 검사에서 감지된 인코딩과 신뢰도를 보여줍니다. 감지가 틀렸다면(미리보기에서 글자가 깨짐) 글자 깨짐 복원에서 수동으로 인코딩을 지정할 수 있습니다.

올바른 인코딩 파악에 도움이 되는 단서:

단계별: 깨진 CSV 수정 방법

  1. 글자 깨짐 복원 열기글자 깨짐 복원으로 이동해 파일을 업로드 영역에 드롭합니다. 서버로 전송되지 않으며 파일은 브라우저 안에서만 처리됩니다.
  2. 자동 감지 인코딩 확인 — 도구가 원본 인코딩에 대한 최선의 추정을 보여줍니다. 처음 몇 줄의 미리보기를 확인합니다.
  3. 미리보기가 올바르게 보인다면 — UTF-8 BOM으로 다운로드합니다.
  4. 미리보기가 여전히 깨진다면 — 드롭다운에서 원본 인코딩을 수동으로 선택합니다. 한국어 파일은 EUC-KR 또는 CP949를, 일본어는 Shift-JIS를, 서유럽어는 Windows-1252를 시도하세요.
  5. UTF-8 BOM 다운로드 — 다운로드된 파일은 올바른 문자를 가지며 엑셀과 현대 시스템에서 올바르게 열립니다.
  6. 확인 — 변환된 파일을 형식·기본 검사로 실행해 인코딩이 UTF-8이고 내용이 올바른지 확인합니다.

워크플로에 맞는 인코딩 선택

예방 방법

도구로 열기

홈으로 · 글자 깨짐 복원 도구 사용