::: evervalue :::






HOME > 지식창고 > IT News
Best Quality, Best Delivery
 
작성일 : 12-05-17 14:07
빅데이터 확보 첫 단추는 `검색과 수집`
 글쓴이 : 최고관리자
조회 : 1,813  
   http://www.dt.co.kr/contents.html?article_no=2012051602011060746002 [804]
■ 빅데이터, 미래를 연다

빅데이터 시대라고 불리지만, 실제로 빅데이터라고 지칭할 만큼 많은 양의 데이터를 보유하고 있는 기업은 소수에 불과하다. 그렇다면 일반 기업 혹은 개인들은 어떻게 빅데이터 자원을 확보할 수 있을까. 한국정보화진흥원과 빅데이터국가전략포럼은 최근 `빅데이터 시대의 데이터 자원 확보와 품질 관리 방안'이라는 보고서를 통해 빅데이터 자원 확보 두 단계를 소개했다.

우선 빅데이터 자원을 확보하기 위해`검색과 수집'이 필요하다. 빅데이터 자원 확보 관점에서 데이터 소스는 △위치(내부, 외부) △미디어(텍스트, 오디오, 비디오, 이미지) △상태(아날로그, 디지털) 등에 따라 구분된다. 이중 조직 외부에 존재하는 무한한 데이터 중에서 조직이 필요로 하는 데이터를 발견하는 것이 중요하다. 현재 빅데이터 확보를 위한 검색 방법은 진화중이지만 흔히 △내부 검색 △통합검색 △소셜검색 △의미분석검색 △인공지능검색 등의 과정을 거친다. 이 과정에서 조직 외부의 소셜 데이터뿐 아니라 조직 내부의 다양한 형태와 방식으로 저장된 데이터들을 검색해야 원하는 데이터를 놓치지 않고 확보할 수 있다.

검색했다면 원하는 정보를 수집해야한다. 데이터 수집은 분산된 다양한 데이터 소스로부터 필요로 하는 데이터를 수동 혹은 자동으로 수집하는 과정이다. 조직 내부에 분산된 정형 데이터의 수집과 조직 외부에 흩어진 비정형 데이터의 수집 모두를 고려해야한다. 데이터의 수집은 주로 툴과 프로그래밍에 의해 자동으로 이뤄지고, 로그 수집기, 크롤링, 센싱 등의 방법도 가능하다.

데이터 수집 과정은 수집한 데이터를 저장하거나 분석하기 위해 데이터를 변환하거나 통합하는 작업을 포함한다. 때문에 빅데이터 수집 시스템은 다양한 데이터 소스로부터 다양한 형태의 데이터를 수집하기 위해 확장성, 안정성, 실시간성, 유연성 등을 확보해야한다.

데이터 검색을 통해 수집을 마쳤다면 `저장'단계에 들어선다. 빅데이터 자원은 `대용량, 비정형, 실시간성'이라는 특징을 수용할 수 있는 저장 방식이 필요하다. 기존 데이터는 행과 열의 정형 데이터로 구성된 테이블들이 결합돼 저장되는 방식으로, 다양한 데이터 유형의 빅데이터 저장에는 부적합하다. 빅데이터 저장은 대량의 데이터를 파일 형태로 저장할 수 있는 기술과 비정형 데이터를 정형화된 형태로 저장하는 기술이 중요하다. 이렇게 빅데이터를 저장하는 대표적인 기술이 △분산파일시스템 △NoSQL △병렬DBMS △네트워크 구성 저장시스템 △클라우드 파일 저장 시스템 등이다. 이들 기술을 활용해 검색한 데이터를 저장하면 빅데이터 자원이 형성되는 것이다.