▲ 이현종 빅스터 대표가 서울산업진흥원, 한양대 오픈소스SW사업단이 주최하는 빅데이터 교육에서 데이터의 형태에 대해 설명했다.

“정보는 철저한 분석이 안 들어 가더라도 알고 만 있어도 엄청난 도움이 되는 것이 있다. 버스 오는 시간을 알려주는 정보만 알고 있어도 좋은 것이 그 사례다. 그래서 데이터 활용이 중요한 것이다.”

이현종 빅스터 대표는 한양대 오픈소스SW사업단, 서울산업진흥원 주최의 ‘창의전문인력 양성 교육’ 빅데이터 과정에서 데이터 활용의 의미를 설명했다. 빅데이터 분석처럼 미리 예측하고 최적회하는 것도 중요하지만 나온 데이터만을 갖고 정보를 전달해주는 것도 의미 있다는 것이다.

이현종 대표는 “기존 통계 분석의 영역은 현황 파악과 진단만 하게 되는 것으로 샘플 데이터를 갖고 모수를 측정하는 방식으로 보통 진행돼왔다”면서 “빅데이터 분석은 예측분석과 최적화분석 쪽에 중점을 두는 것”이라고 말했다. 그는 “분석은 알아가는 과정”이라며 “어떤 깊이를 통해 알아가느냐가 중요한 것”이라고 말했다.

이 대표는 데이터 형태에 따라 정형 데이터, 반정형 데이터, 비정형 데이터가 있다고 설명했다. 이 데이터의 차이는 무엇일까? 데이터를 구분하는 기준으로 스키마(schema) 형태의 유무, 즉 형태가 있느냐 없느냐가 우선 분류기준이다. 또한 형태가 있으면서 연산가능(calculable)한 것인지, 연산 불가능한 것인지가 그 다음 기준이다.

형태가 있고 연산가능하면 정형 데이터이며, 형태가 있으나 연산가능하지 않으면 반정형 데이터에 속한다. 로그 등이 대표적인 것이다. 비정형 데이터는 형태도 없고, 연산 가능하지도 않은 것. 우리가 흔히 말하는 소셜 데이터가 이에 속하며 텍스트, 영상, 음성 등의 형태로 나타난다. 비정형 데이터를 분석하기 위해서는 비정형화를 정형화로 만드는 정형화 데이터 애플리케이션이 필요한 것이고, 정형화 애플리케이션의 성능에 따라 데이터 분석의 효과 차이가 생기는 것이다.  

저장구조에도 차이가 있다. 정형 데이터는 RDBMS로 저장되고, 반정형 데이터는 파일로, 비정형 데이터는 NoSQL이라는 저장구조를 갖게 된다.

이현종 대표는 “최근 텍스트, 음성, 영상 데이터를 활용해 데이터를 분석하려는 것에 관심 많은 곳이 국방분야”라고 말했다. 그는 이어 “소량화된 데이터를 갖고 R을 통해 분석을 하고 , 그 R을 통해 나온 결과를 바로 사용하는 것이 아니라 자바나 별도 언어를 갖고 프로그램을 해서 만들어가는 것”이라고 설명했다.

저작권자 © 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지