파편화된 데이터 파이프라인의 문제

첫번째는 데이터 적재의 병목현상이다. 서비스의 사용자가 많아지고 애플리케이션의 복잡도가 증가하면 생성 되는 데이터 양도 기하급수적으로 늘어난다. 데이터를 데이터 레이크로 즉시 보내려고 하지만 데이터 레이크로 바로 적재하는 것은 병목현상이 발생할 수 밖에 없다. 또한 엔드 투 엔드방식의 적재로 인해 데이터 레이크로 사용하는 저장소에 장애가 발생할 경우 서비스에 영향도가 전파되어 서비스가 중단되거나 장애가 발생한다면 사용자에게 불편한 경험을 줄 수 있다.

두번째는 다양한 저장소 이슈이다. 데이터 레이크 저장도구로서 가장 널리 사용되는 프레임 워크는 하둡(Hadoop)이다. 하둡은 구글(Google)이 논문으로 발표한 GFS(Google File System)와 맵리듀스(MapReduce)를 구현한 오픈소스이다. HDFS(Hadoop Distributed File System)를 통해 분산 서버로 데이터를 저장하고 그 저장된 데이터를 빠르게 사용할 수 있다. 또한 파일을 복제하여 데이터를 저장하는 데이터노드(Data Node)에서 장애가 발생하더라도 안전하게 보관할 수 있도록 설계되어 있다. 데이터를 효과적으로 분석하고 서비스에 녹여내기 위해서는 하둡을 저장소로 사용하는 것만으로는 부족하다. 데이터에 따라 사용하는 저장소의 종류를 변경해야할 수도 있는데, 시계열 데이터베이스(Time Series Database, TSDB), NoSQL(non SQL) 데이터베이스, 키-값(key-value) 데이터베이스 등이 필요할 수 있다. 서비스에서 생성된 데이터를 각기 다른 데이터 베이스에 연동하면 연동의 복잡도로 인해 시간이 지날수록 유지보수의 이슈가 필연적으로 발생한다.

저작자표시 비영리 변경금지 (새창열림)

데브원영

Big-data Engineering

파편화된 데이터 파이프라인의 문제

티스토리툴바