정형데이터
미리 정해 놓은 형식과 구조에 따라 저장되도록 구성된 데이터.
정형 데이터를 위해 미리 정해 놓은 형식과 구조는 사용자가 쉽게 이해하고 시스템에 쉽게 적용할 수 있도록 잘 알려진 포맷이나 명확한 데이터 구조 표현 방법을 사용해야 한다.
정형 데이터(structured data)의 대표적인 예는 관계형 데이터베이스(RDB: Relational Database)의 테이블과 같이 고정된 컬럼에 저장되는 데이터, 지정된 행과 열로 데이터의 속성이 정해져 있는 스프레드시트(spreadsheet) 데이터, 콤마로 구조가 결정되는 시에스브이(CSV) 데이터 등이 있다. 정형 데이터는 반정형, 비정형 데이터와는 달리 정해진 형식과 저장 구조를 바탕으로 손쉽게 데이터에 대한 부분 검색 및 선택, 갱신, 삭제 등의 연산을 수행할 수 있어 주로 정형화된 업무 또는 서비스에 사용된다.
비정형 데이터
정의된 구조가 없이 정형화되지 않은 데이터
대표적인 비정형 데이터에는 동영상 파일, 오디오 파일, 사진, 보고서(문서), 메일 본문 등이 있다. 비정형 데이터는 데이터 구조가 없어 비정형 데이터 자체만으로는 내용에 대한 질의 처리(query processing)를 할 수 없다.
따라서 데이터의 특징을 추출하여 반정형, 또는 정형 데이터로 변환하는 전처리(preprocessing)가 필요하다. 데이터 분석 또는 인공지능 모델의 개발 목적과 입력 데이터의 종류에 따라 매우 다양한 방법의 전처리를 사용한다.
텍스트 형태의 데이터는 전처리를 위해 자연어 처리(Natural Language Processing) 기법을 주로 사용한다. 동영상, 오디오, 사진 등 미디어 파일은 필터를 이용하여 노이즈(noise)를 제거하거나 데이터 범위를 변환하는 방법으로 전처리하며, 주로 기계 학습(ML: Machine Learning)을 위한 입력 데이터로 활용한다.
비정형 데이터는 지속적으로 생성되는 데이터 중 가장 큰 비중을 차지하고 있으며, 데이터가 생성되는 시간대의 다양한 사회적, 문화적, 공간적 현상들을 반영하고 있기 때문에 마케팅, 비즈니스 인텔리전스(BI) 등의 분야에서 매우 중요하다.
'[IT컨설턴트] > 기초용어' 카테고리의 다른 글
| 핵심성과지표(KPI, Key Performance Indicator) (2) | 2023.10.05 |
|---|---|
| 인공지능 콘택트 센터(AICC, AI Contact Center) (0) | 2023.09.19 |
| 제안요청서 용어 정리 (0) | 2023.09.19 |
| IPIMS (0) | 2023.09.19 |
| 제안요청서(Request for Proposal, REF) (0) | 2023.09.11 |