어린 시절 누구나 한 번쯤은 해봤을 게임이다.
바로두똥관 연결게임~~~

이 게임은 물이 목적지까지 흐르도록 파이프를 끊지 않고 연결하는 것입니다.
데이터 파이프라인그것도 마찬가지입니다.
데이터가 수집되어 전송되면 데이터가 중단 없이 처리되어 DW라는 통계/분석 데이터 영역으로 전송되는 것을 의미합니다.
대부분의 회사에서 이 프로세스는 흐름의 자동화를 통해 대량의 데이터를 수집하는 데 사용됩니다. 잃지 않기 위해 실시간으로 생성됩니다.
각 단계에서 사용되는 기술을 데이터 공학이라고 하는데 제가 연구하는 분야입니다.
워크플로 전체를 이해하는 가장 좋은 방법은 실전이라고 생각합니다.bb
그렇게 하면 더 빨리 알아낼 수 있고 오랫동안 기억에 남는 것처럼 보일 것입니다.
이를 염두에 두고 파이프라인을 구축하는 장난감 프로젝트를 계속 진행할 것입니다.

아래는 프로젝트 아키텍처의 간략한 스케치입니다.
사실 각 단계에서 사용되는 기술이 적절한지는 잘 모르겠지만 먼저 구축해보시면 감이 오실 거라 생각합니다. (많이 변한듯..)
데이터는 공공 데이터 포털(https://www.data.go.kr/) 및 개방형 API를 사용할 수 있습니다.

환경에 관해서는 데스크톱에 VMware로 가상 서버를 만들려고 합니다.
대부분이 분산 환경을 구축하는 데 사용되는 기술이지만 현재로서는 이해하기 쉽게 하기 위한 장난감 프로젝트에 불과합니다. 그래서 먼저 단일 서버에 구축하고, 감을 잡으면 클라우드 또는 추가 서버를 구축하여 분산 환경으로 사용해 보세요.
다음 번에는 공공 데이터 포털에서 데이터를 수집하는 단계를 구현할 것입니다.

