등장 배경
데이터 품질의 중요성 대두
빅데이터, 사물인터넷(IoT), 머신러닝(AI) 등이 실 생활에 적용되면서 데이터의 양 뿐만 아니라 데이터 품질의 중요성이 강조됨
기존 데이터 품질 관리 도구의 한계
데이터 프로파일링과 해당 도메인의 특징을 반영한 업무 규칙을 활용 => 기존 도메인의 지식이 있어야 데이터 품질관리가 가능함.
최근 데이터 품질관리 도구
머신러닝 기법의 데이터 품질관리
머신러닝 기법이 적용돼 과거 규칙기반으로 진단할 수 없는 데이터의 처리가 가능하고 데이터의 품질관리 수준을 향상 시킬 수 있음.
도메인 지식 없이도 품질관리가 가능하도록 하는게 목표
머신러닝 기법의 데이터 품질관리의 장점
- 데이터 탐색
- 기본적 기술통계, 데이터 분포 및 패턴, 시각화 기능 제공
- 도메인판별
- 데이터 항목의 의미, 데이터 형식, 패턴을 분석해 데이터의 특성(도메인)을 자동 분류
- 이상값탐지
- 데이터 규칙 및 범위가 명확하지 않은 경우의 데이터의 이상값 탐지 (단변량 이상값 탐지, 다변량 이상값 탐지, 사용자 정의 이상값 탐지)
- 데이터 매칭 및 중복 관리
- 데이터간의 유사도를 판단
Reference
- [이 제품을 주목하라] 머신러닝 적용한 자동화된 데이터품질 관리도구 - 컴퓨터월드, http://www.comworld.co.kr/news/articleView.html?idxno=49471