saay, hi
AWS 빅데이터 분석/처리 (23.08.01) 본문
- 1일차에는 그 전에 들었던 AWS 정보 수집하는 내용을 복기
- 2일차에는 빅데이터 분석/ 처리에 대해 이론을 배우며 직접 실습 후, 캡스톤 진행
필요한 주요개념과 사용되는 것들(ex. Security Groups, Elastinc IP Address)에 대한 개념을 학습
<<실습>>
- AWS의 주요 서비스를 실습 진행
일단 실습 전 S3 버킷구조를 학습 후. 정형, 비정형 데이터를 수집하고 저장하는 버킷과 데이터의 원본파일을 저장하는 버킷으로 실습 (AWS 빅데이터 저장/수집 참고)
(한 아이디로 쓰는거라 버킷은 이미 만들어져있었고 그 안에 IAM user name이 지정돼, 지정된 user name으로 서비스를 이용)
0) 버킷 안에 계정 명을 만들고 그 안에 데이터 레벨(L0,L1,L2)을 만듦
1) L0는 data lake라고도 불리우는데 glue로 데이터를 가져오는 단계. 즉 원시 데이터를 수집하는 단계
2) L1는 data warehouse라고 불리우는데 L0에 비해 데이터가 가공되었으며 Hot Data 위주
3) L2는 하나의 카테고리만 갖는 특성화된 data set으로 관심사만 모아둔 데이터 기반 즉, 요약 데이터 위주를 모아둔 레벨
실습 pipe line )
1. collect --> 2. currate(ETL) --> 3. server(insight) --> 4. prediction(ML) --> 5. deploy
*개념 및 용어 정리
S3 (Simple Storage Service) : 객체 스토리지 서비스, 여러사람이 접속 가능함
bucket : 컨테이너 or 폴더
object : 데이터를 담아두는 곳 unique하게 rdb되어있음
region : S3가 저장되는 물리적 위치
crawler : 스키마 역할
job : 스키마에 넣을 내용
glue service 용도 : 데이터를 스토리지에 올려놓고 데이터 카탈로그 관리와 ETL 작업
glue data catalog : ETL 모든 소스 중앙 장치
- 데이터 정보 수집 실습
0) AWS에 데이터를 수집하기 전 데이터의 카탈로그 정보 만듦. 정형데이터는 Athena를 이용하여 ddl문 작성한 후 실행
1) HeidiSQL에서 RDS 구조 파악 후, 수집 테이블의 생성 구문을 완성하여 Athena Query editor에서 실행
2) AWS Glue 데이터 카탈로그를 선택하여 생성한 테이블을 확인하고, Athena에서 SQL을 사용하여 데이터를 확인
2) 데이터 수집하기 위해 ETL job에서 사용할 RDS 연결을 생성한 후 원천 데이터베이스와 연결됐는지 확인
+) 크롤러를 생성 후 데이터 카탈로그의 table 을 확인 후, job을 추가
s3에 저장된 비정형, 정형 데이터를 분석하는데 도와주는 Athena , EMR, Redshift를 비교
현업에선 Redshift를 권장 (EMR은 비용이 너무 드는데, 요샌 severless EMR 서비스가 출시되었긴 함)
- 분석 모델
주피터 노트북을 사용해 분석 모델을 적용해보는 실습
SageMaker에서 분석가가 만든 모델엔진으로 interence를 하는 실행코드를 받아서 적용
샘플은 온라인 쇼핑정보
- 시각화
시각화 작업은 3명의 팀원과 모여 캡스톤으로 진행.
0) redshift의 데이터를 연결하여 정형 보고서를 만듦
1) 정형보고서 만든 후 대시보드를 통해 시각화를 공유하고 최종 과제 발표. 발표 과제 주제는 서울시 지하철을 활용하여 쓸모있는 정보의 대시보드 제작
'IT 교육' 카테고리의 다른 글
사례로 보는 인프라스트럭처 아키텍처 수강후기 (24.09.10) (0) | 2024.10.21 |
---|---|
[ms azure] Data enginnering on microsoft azure 교육 수강 후기 (24.09.10) (2) | 2024.10.21 |
AWS 빅데이터 수집 및 저장 (6) | 2024.10.21 |