본문 바로가기
data quality

데이터 품질 관리 도구

by omegaduck 2022. 5. 30.

등장 배경

데이터 품질의 중요성 대두

빅데이터, 사물인터넷(IoT), 머신러닝(AI) 등이 실 생활에 적용되면서 데이터의 양 뿐만 아니라 데이터 품질의 중요성이 강조됨

기존 데이터 품질 관리 도구의 한계

데이터 프로파일링과 해당 도메인의 특징을 반영한 업무 규칙을 활용 => 기존 도메인의 지식이 있어야 데이터 품질관리가 가능함.

최근 데이터 품질관리 도구

머신러닝 기법의 데이터 품질관리

머신러닝 기법이 적용돼 과거 규칙기반으로 진단할 수 없는 데이터의 처리가 가능하고 데이터의 품질관리 수준을 향상 시킬 수 있음.

도메인 지식 없이도 품질관리가 가능하도록 하는게 목표

머신러닝 기법의 데이터 품질관리의 장점

  • 데이터 탐색
  • 기본적 기술통계, 데이터 분포 및 패턴, 시각화 기능 제공
  • 도메인판별
  • 데이터 항목의 의미, 데이터 형식, 패턴을 분석해 데이터의 특성(도메인)을 자동 분류
  • 이상값탐지
  • 데이터 규칙 및 범위가 명확하지 않은 경우의 데이터의 이상값 탐지 (단변량 이상값 탐지, 다변량 이상값 탐지, 사용자 정의 이상값 탐지)
  • 데이터 매칭 및 중복 관리
  • 데이터간의 유사도를 판단

Reference

  1. [이 제품을 주목하라] 머신러닝 적용한 자동화된 데이터품질 관리도구 - 컴퓨터월드, http://www.comworld.co.kr/news/articleView.html?idxno=49471