[뉴미연 탐방]데이터사이언스연구실

데이터사이언스연구실(DSL)은 바이오메디컬 빅데이터를 비롯한 다양한 종류의 빅데이터를 딥러닝을 비롯한 첨단 기계학습 기술과 분산병렬 컴퓨팅 기술을 활용하여 효과적으로 분석하고, 이를 바탕으로 한 Data-driven innovation을 이루어내기 위한 연구를 진행하고 있다. DSL은 2012년에 설립되어, 현재 약 30명의 석박사 연구원이 윤성로 교수님의 지도 아래 연구를 수행하고 있다. 현재까지 31편의 국제 학술지 논문 게재, 22편의 국제 학술대회 논문 발표를 비롯해 국내외에 걸친 연구 성과를 내고 있다.

데이터사이언스연구실(DSL)은 바이오, 기계학습 및 데이터마이닝, 시스템구조, 분산병렬처리 등 5개의 세부 연구 팀으로 구성되어 융합적이고 혁신적인 빅데이터 관련 연구를 수행하고 있다. 바이오 연구는 유전체 정보를 포함한 바이오 메디컬 빅데이터로부터 복잡한 생물학적 특징을 인지 가능한 형태로 파악하는 것을 목표로 한다. 이러한 연구 결과는 유전 질환의 원인 규명이나 신약 개발 등에 폭넓게 활용될 수 있다. 이를 위해 필요한 기술이 바로 기계학습이다. 그 중 대표적인 방법론이 딥러닝으로 이는 음성 및 영상인식 등 전통적인 응용과 바이오 분야 외에도, 의료, 경제, 교통, 웹, 소셜미디어 등 다양한 빅데이터 응용에 활용되고 있다. DSL은 MRI, CT, X-ray 등의 의료영상 분석에 적합한 기계학습 알고리즘을 개발하여 영상 속 환부의 정보를 자동으로 감지하고, 의사들의 진단 효율성을 높이는 기술을 개발하는 것을 연구 목표로 하고 있다. 빅데이터는 방대한 크기 외에 속도나 다양성 등의 의미를 내포하는 복합적 문제이다. 따라서 빅데이터의 효율적인 처리를 위해 많은 컴퓨팅 자원을 사용하여 동시에 처리하는 분산처리 플랫폼이 필수적이다. 따라서 DSL은 Apache의 Hadoop, Spark와 같은 분산처리 기술을 응용하여 다양한 기계학습 알고리즘의 성능 향상을 이루고 적절한 시간 내에 서비스 가능한 형태의 분석 결과를 만들어 내는 연구를 진행 중이다. 더 나아가 기존의 CPU 중심 컴퓨터 구조에서 메모리와 저장장치 기반 즉, 데이터가 중심이 되도록 하는 컴퓨팅 구조를 설계 및 구현하는 연구도 수행하고 있다.

Universal probability에 의한 염기서열 분류 기법

Figure 1 Universal probability에 의한 염기서열 분류 기법

 

교통 데이터 분석을 통한 요일 별 이상 패턴 발견 기법

Figure 2 교통 데이터 분석을 통한 요일 별 이상 패턴 발견 기법

 

딥러닝 기반 의료 영상 분석 알고리듬

Figure 3 딥러닝 기반 의료 영상 분석 알고리듬