본문 바로가기
BOOKS BOOKS BOOKS

스파크를 활용한 실시간 처리 - 한빛미디어

by 19810721 2021. 5. 23.

시간에 대한 무한 개념. 스트림.

스파크를 활용한 실시간 처리 - 한빛미디어

 

크기가 무한한 유형의 데이터 ’, 이는 스트림의 정의이다. 책의 서두에서 스트림 처리는 무한한 데이터를 처리하는 규율 관련 기술의 집합이라고 설명한다. 경계가 없다는 뜻인 무한이라는 것을 이론적으로는 생각할 있지만, 현실적으로는 불가능하다. 그러나 공간의 개념에서 무한 데이터는 존재할 없지만, 시간 축에서 바라보는 데이터의 흐름은 무한의 개념이 가능해진다. 책을 보고 나서야 단순히 대량의 데이터 처리라고 생각했던 스트림에 대한 개념이 시간 개념의 데이터 스트림이라는 것을 알게 되었다.

                                               

경계가 명확한 대량의 데이터는 배치 처리로 처리하는 것이고, 경계가 불명확한 (Unbounded data 데이터는 스트림 처리라는 또한 책을 보고 나서야 알게 되었다. 우리가 서로 생각하고 있는 용어의 의미를 합의하고 시간이 진행되어야 한다며 충분한 사전 지식과 용어 설명에 시간을 아끼지 않았던 어떤 세미나가 생각났다. 어떤 발표 또는 어떤 책을 쓰게 된다면 책의 1장처럼 써야겟다는 생각이다. 책을 접하게 된다면 1장을 정독하기를 바란다.

 

책은 단순히 인메모리 스트림 처리에 대한 사용법에서 그치지 않고 독자로 하여금 어디까지 스파크를 활용할 있는지를 보여준다. 특히 (이론적으로는) 무한한 스트림을 처리하기 위해 분산 처리 모델을 제시하고 예를 들어 실제 어떻게 동기화를 하는지 드러낸다. 아울러, 스트리밍 처리의 구조에서 이벤트 시간을 기반으로 어떻게 처리하고 중복을 막는지도 설명한다.

 

책의 중반에 이르러서야 본격적으로 아파치 스파크를 설명하는데 그만큼 부분에서 스트림 처리에 대한 충분한 설명을 감당해낸다. 아파치 스파크에 대한 활용에서 모니터링과 성능 튜닝까지 설명하니 , 중급 개발자를 넘어 시니어 개발자도 책을 일하는 곳에 비치해두기를 바란다.

 

최근 주식 거래가 활발해지면서 알고리즘과 데이터, 머신러닝 등을 활용한 트레이딩에 관심이 많은데, 책을 만나게 것이 행운이라는 생각이 든다. 조금 아쉬운 부분은 이미지나 도표, 그래프 등이 부족해서 시각적인 자료를 통해 이해를 돕는 부분이 부족한 것이 스파크를 처음 접하는 이들에게는 다소 힘들 있겠다는 생각이 든다. 데이터 처리에 대한 충분한 이해를 바탕으로 접근할 있을 책이 전문서적으로서 힘을 발휘할 있겠다.

 

"<IT 전문서적 리뷰> 를 목적으로 한빛미디어 출판사에서 책을 제공받아 작성된 서평입니다."