빅데이터를 지탱하는 기술 2

빅데이터의 탐색

1. Pandas로 크로스 집계 merge() 함수로 집계에 필요한 테이블 결합 -> pivot_table()함수로 크로스 집계할 수 있다. df.pivot_table(u'금액', [u'점포 ID', u'상품명'], u'매출일', aggfunc='sum') 2. SQL에 의한 집계 피벗 테이블에 의한 크로스 집계는 간편하지만 데이터의 양이 수백만 레코드 이상일 때 느려져서 사용하기 불편하다. 대량의 데이터 크로스 집계 => SQL 집계 함수 사용 SELECT date_trunc('month', "매출일")::DATE AS "매출일", "점포 ID", "상품 ID", "고객 ID", sum("금액") AS "금액" FROM "판매 이력" GROUP BY 1, 2, 3, 4 --트랜잭션 테이블을 크로스로 집..

하둡 2023.09.11

빅데이터의 기초 지식

데이터 파이프라인 - 데이터 수집부터 워크플로우 관리 - 어디에서 데이터를 수집하여 무엇을 실현하고 싶은지? 데이터 수집 - 데이터 파이프라인의 첫 부분 (데이터를 모은다) - 다양한 곳에서 발생되고 각각 다른 형태를 갖는다. - 파일 서버에 축적된 로그 파일, 애플리케이션에서 쌓인 이벤트 데이터 등 데이터 전송 방법은 크게 bulk 형과 streaming 형이 있다. bulk : - 이미 존재하는 데이터를 정리해서 추출 - DB/서버에서 정기적으로 수집 streaming : - 연속적으로 생성되는 데이터를 끊임없이 전송 - 모바일 애플리케이션/인베디드 장비에서 데이터 수집 스트림 처리 & 배치 처리 기존의 데이터 웨어하우스 : 벌크 형 현재 빅데이터 : 실시간으로 처리하느 스트림 처리가 주류가 됨 스트..

하둡 2023.09.08