▲ 이현종 빅스터 대표가 한양대 오픈소스SW사업단에서 주최한 재직자 과정에서 빅데이터 분석과 통계 분석의 차이점에 대해 설명하고 있다.

“오픈소스 R을 쓸 때는 기능을 아는 것은 기본이며, 그 데이터 의미의 방향성(내포성)을 아는 것도 중요하다. 특히 분석 기법이 어떤 형태로 진행되고 있는지를 인식을 하고 접근을 하면 굉장히 좋다.”
|
이현종 빅스터 대표는 데이터 분석을 할 때 기존 통계 분석과 빅데이터 분석, 데이터 마이닝 등 3대 분석 기법간의 관계를 인지하는 것이 좋다고 말했다. 이 강연은 한양대학교 오픈소스SW사업단 주최, 데브멘토 후원의 재직자 교육 과정 ‘오픈소스 R을 통한 빅데이터 분석 실전’이라는 과정에서 진행됐다.

이현종 대표는 “전통적인 통계분석과 빅데이터 분석은 다르다”면서 “통계분석은 데이터를 분석할 때 모수(전체수)가 있는데 그것을 알고 싶기 때문에 모수를 추론하기 위해서 샘플링을 하게 된다”고 설명했다. 샘플을 갖고서 모수를 추정하는 것이 전통적인 통계분석의 기법이라는 것. 보통 두개 집단을 비교 분석하는 사례가 많다. 1000명 대상의 샘플링을 통해 5000여명의 생각을 알고 싶은 것이기에 샘플의 의미 파악이 중요하다.

빅데이터 분석은 이와 조금 다르다. 이미 모수(전체수)를 갖고 있다는 점이다. 빅데이터 분석은 기존 모수 안에 숨겨진 패턴, 보이지 않았던 패턴과 규칙을 찾는 것이 관건이 된다는 것. 이미 모수를 갖고 있기 때문에 샘플링이 의미가 없고 데이터 안에서 분석을 하면 되는 것이 기존 통계분석과는 다르다. 그러다보니 기존 데이터를 어떻게 나눌까, 분류를 할까. 데이터 간의 거리 계산 등에 중점을 두게 된다.

이현종 대표는 “데이터를 분류할 때도 통계분석과 빅데이터 분석간 분류하는 방법이 다르다”면서 “빅데이터 분석을 할 때 모수 전체 안의 패턴이 맞느냐, 안 맞느냐를 하기 위해서 통계분석을 쓰는 하이브리드 분석도 요즘 트렌드”라고 말했다.

저작권자 © 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지