-
알쓸용잡: DATA 용어카테고리 없음 2023. 1. 26. 16:47
1. 빅데이터(big data)
기존의 관리 방법이나 분석 체계로는 처리하기 어려운 방대한 양의 정형, 반정형, 비정형 데이터집합을 말한다. 또는 이러한 데이터 집합을 수집, 저장, 관리, 분석, 시각화하는 정보통신 기술 분야를 일컫는 말이다. 빅데이터에서 데이터는 컴퓨터 및 디바이스를 통해 생성되거나 저장된 정보를 의미한다. 빅데이터는 폭발적으로 증가하고(Volume), 시간에 따라 빠른 속도로 변화하며(Velocity), 포맷과 형식이 다양(Variety)하다는 특징이 있다. 빅데이터를 효과적으로 분석하고 처리하면 미래를 예측하거나, 의사 결정에 활용하여 새로운 가치를 창출할 수 있다. 반면에 입력 데이터에 대한 의존성이 매우 높아 부정확하거나 편향적인 데이터를 사용할 경우 처리한 결과의 품질을 보장하기 어렵다.
2. 정형 데이터( structured data)
미리 정해 놓은 형식과 구조에 따라 저장되도록 구성된 데이터를 말한다. 정형 데이터를 위해 미리 정해 놓은 형식과 구조는 사용자가 쉽게 이해하고 시스템에 쉽게 적용할 수 있도록 잘 알려진 포맷이나 명확한 데이터 구조 표현 방법을 사용해야 한다. 정형 데이터의 대표적인 예는 관계형 데이터베이스의 테이블과 같이 고정된 컬럼에 저장되는 데이터, 지정된 행과 열로 데이터의 속성이 정해져 있는 스프레드시트 데이터, 콤마로 구조가 결정되는 CSV 데이터 등이 있다.
3. 반정형 데이터(semi-structured data)
데이터의 형식과 구조가 변경될 수 있는 데이터를 말한다. 데이터의 구조 정보를 데이터와 함께 제공하는 파일 형식의 데이터이다. 반정형 데이터는 정형 데이터처럼 테이블의 행과 열로 구조화되어 있지는 않으나, 파일에 포함된 데이터 구조 정보를 바탕으로 테이블 형태의 데이터베이스 스키마로 변환하고 데이터를 매핑하여 정형 데이터로 변환할 수 있다. 대표적인 반정형 데이터 구조는 하이퍼텍스트 마크업 언어(HTML), 확장성 마크업 언어(XML), 자원기술 프레임워크(RDF), 제이슨(JSON) 등이 있다.
▪HTML: HyperText Markup Language
▪XML: eXtensible Markup Language
▪RDF: Resource Description Framework
▪JSON: JavaScript Object Notation
4. 비정형 데이터(unstructured data)
정의된 구조가 없이 정형화되지 않은 데이터를 말하며 비정형 데이터는 데이터 구조가 없어 비정형 데이터 자체만으로는 내용에 대한 질의 처리를 할 수없다. 따라서 데이터의 특징을 추출하여 반정형, 또는 정형 데이터로 변환하는 전처리가 필요하다. 데이터 분석 또는 인공지능 모델의 개발 목적과 입력 데이터의 종류에 따라 매우 다양한 방법의 전처리를 사용한다. 대표적인 비정형 데이터에는 보고서(문서), 메일본문, 동영상 파일, 오디오 파일, 사진 등이 있다.텍스트 형태의 데이터는 전처리를 위해 자연어 처리NLP: Natural Language Processing 기법을 주로 사용한다. 동영상, 오디오, 사진 등 미디어 파일은 필터를 이용하여 노이즈를 제거하거나 데이터 범위를 변환하는 방법으로 전처리하며, 주로 기계 학습을 위한 입력 데이터로 활용한다.
비정형 데이터는 지속적으로 생성되는 데이터 중 가장 큰 비중을 차지하고 있으며, 데이터가 생성되는 시간대의 다양한 사회적, 문화적, 공간적 현상들을 반영하고 있기 때문에 마케팅, 비즈니스 인텔리전스 등의 분야에서 매우 중요하다.