CSV란?

쉼표로 구분해 데이터를 담는 텍스트 형식의 기초와 업무에 도움 되는 포인트를 정리합니다.

CSV의 기본

CSV(Comma-Separated Values)는 쉼표로 구분된 텍스트 형식 데이터 파일입니다. 한 줄이 한 레코드이고, 각 열은 쉼표로 구분되며, 보통 첫 줄이 헤더(열 이름)로 쓰입니다.

CSV 예시

id,name,email
1,홍길동,hong@example.com
2,김영희,kim@example.com

이처럼 표 형태 데이터를 그대로 텍스트로 표현할 수 있어, 엑셀·DB·웹 앱 간 데이터 전달에 많이 쓰입니다.

CSV의 장점

구분자에 대해

이름처럼 쉼표(,)가 쓰이지만, 지역·앱에 따라 세미콜론(;)이나 을 쓰는 경우도 있습니다. CSV 체커에서는 구분자 자동 감지와 수동 지정이 가능합니다.

문자 코드(인코딩)

CSV는 텍스트 파일이므로 문자 코드 설정이 중요합니다. 한국어에서는 주로 다음이 쓰입니다.

문자 코드가 맞지 않으면 깨짐이 납니다. 자세한 내용은 글자 깨짐·인코딩 문제를 참고하세요.

CSV와 엑셀의 차이

엑셀(.xlsx)은 셀·서식·수식·여러 시트 등을 가진 바이너리 형식입니다. CSV는 “순수 텍스트 표 데이터”에만 집중하며, 서식은 없고 1파일=1시트 정도로 보면 됩니다. 데이터 전달·가져오기에는 CSV가 많이 쓰이며, CSV와 엑셀의 차이에서 비교해 두었습니다.

CSV에서 주의할 점

CSV의 역사와 RFC 4180 표준

CSV는 컴퓨팅 초기부터 사용되어 온 형식입니다. 2005년 RFC 4180으로 쉼표·따옴표·줄바꿈 처리 방식이 공식 정의되었습니다. 오래된 형식임에도 불구하고, 단순함과 거의 모든 소프트웨어의 지원 덕분에 현재도 가장 널리 쓰이는 데이터 교환 형식 중 하나입니다. CSV 파일을 열거나 만들기 위해 별도의 전용 앱이 필요하지 않다는 점이 큰 장점입니다.

실무에서 CSV가 쓰이는 곳

CSV는 거의 모든 산업 분야에서 활용됩니다.

CSV vs JSON vs XML: 어떤 형식을 써야 할까?

CSV만이 텍스트 기반 데이터 형식은 아닙니다. 선택에 도움이 되도록 간단히 비교합니다.

상품 목록이나 고객 내보내기처럼 데이터가 단순한 행·열 표 구조라면 CSV가 거의 항상 올바른 선택입니다. 중첩 객체나 여러 관련 테이블, API 연동이 필요하다면 JSON이 더 적합합니다.

CSV 문제를 가장 많이 일으키는 실수 3가지

실무에서 발생하는 CSV 오류의 대부분은 다음 세 가지 실수로 귀결됩니다.

  1. 인코딩 불일치: EUC-KR이나 CP949로 저장한 파일을 UTF-8 환경에서 열면 글자가 깨집니다. 파일을 주고받기 전에 반드시 인코딩을 확인하세요. 형식·기본 검사 도구를 쓰면 자동으로 인코딩을 감지합니다.
  2. 구분자를 포함한 필드 미처리: 홍길동, 서울처럼 쉼표가 들어간 필드를 큰따옴표로 감싸지 않으면 열 구조가 깨집니다. 대용량 파일에서는 육안으로 찾기 어렵고, 열 개수 불일치 오류의 가장 흔한 원인 중 하나입니다.
  3. 복사·붙여넣기로 유입된 보이지 않는 문자: 웹 페이지, PDF, 채팅 도구에서 데이터를 복사하면 영폭 공백, 줄바꿈 없는 공백, 기타 제어 문자가 함께 붙여넣어집니다. 엑셀에서는 보이지 않지만 DB나 API에서는 가져오기 실패를 일으킵니다. CSV 검사 도구로 한 번에 탐지·제거할 수 있습니다.

홈으로 · CSV 검사 시작