데이터 파이프라인 - 데이터 수집부터 워크플로우 관리 - 어디에서 데이터를 수집하여 무엇을 실현하고 싶은지? 데이터 수집 - 데이터 파이프라인의 첫 부분 (데이터를 모은다) - 다양한 곳에서 발생되고 각각 다른 형태를 갖는다. - 파일 서버에 축적된 로그 파일, 애플리케이션에서 쌓인 이벤트 데이터 등 데이터 전송 방법은 크게 bulk 형과 streaming 형이 있다. bulk : - 이미 존재하는 데이터를 정리해서 추출 - DB/서버에서 정기적으로 수집 streaming : - 연속적으로 생성되는 데이터를 끊임없이 전송 - 모바일 애플리케이션/인베디드 장비에서 데이터 수집 스트림 처리 & 배치 처리 기존의 데이터 웨어하우스 : 벌크 형 현재 빅데이터 : 실시간으로 처리하느 스트림 처리가 주류가 됨 스트..