본문 바로가기
  • This is Russell - the most handsome and the smartest.
AWS/EMR

EMR - 오토스케일링

by sundelion 2022. 1. 20.

EMR 이란?

Elastic MapReduce 에서 따온 이름으로, 유동적으로 쉽게 컴퓨터(노드), 클러스터를 가감할 수 있다.
빅데이터 프로젝트를 쉽게 구축하여 바로 사용할 수 있다.
 

EMR 기본 설명 및 생성 방법

EMR ? - Elastic MapReduce 의 줄임 - AWS 에서 제공하는, 빅데이터 플랫폼 구축 및 운영에 최적화 된 클라우드 서비스 - 아파치의 스파크, 하이브, 프레스토, 그리고 이외의 빅데이터 플랫폼들을 실행 및

dandelion.tistory.com

AWS EMR 노드 개념 설명

 

노드 유형 이해: 마스터, 코어 및 작업 노드 - Amazon EMR

Amazon EMR 5.23.0 이상에서는 3개의 마스터 노드로 클러스터를 시작하여 YARN Resource Manager, HDFS Name Node, Spark, Hive 및 Ganglia 같은 애플리케이션의 고가용성을 지원할 수 있습니다. 이 기능을 사용하면

docs.aws.amazon.com

EMR Auto Scaling Rule 적용 방법

0. Update concurrency configuration

EMR auto scaling rule 을 적용하기 위해선 먼저, 해당 emr 이 동시성으로 병렬로 진행이 가능하게끔 해야한다.

1. AWS EMR 콘솔창으로 이동

2. 수정하고자 하는 클러스터 선택

3. 디테일 창에서 "Steps" 탭 선택

4. "Change" 클릭

 

5. 동시적으로 병렬로 진행 가능하게 할 노드의 최대 수 입력

6. 저장 (초록색 체크 아이콘)

1. Set up Cluster Scaling Policy

Core 노드 기준으로 서술하였습니다. Task 노드 설정도 내용은 같습니다.

1. AWS EMR Hardware 탭 선택

2. 오른쪽 하단, Cluster Scaling Policy 우측에 Edit 버튼 클릭

3. 체크박스 "Enable Cluster Scaling" 선택 및 "Create a custom automatic scaling policy" 선택 후 "Save" 버튼 클릭

4. 수정할 노드의 우측에 연필 아이콘 클릭

5. Minimum Instances 와 Maximum instances 의 수를 설정함 ( Maximum instances 는 위의 0번에서 설정한 값과 같거나 작아야 한다)

- 추가할 수 있는 규칙들의 종류

- Scale out: 인스턴스가 추가되는 규칙

- Scale in: 인스턴스가 차감되는 규칙

6. 최종적으로 Modify 버튼을 눌러 저장 후,  Status 가 ATTACHED 로 뜨면 정상적으로 등록된 것이다.

아마존이 추천하는 EMR Best Practices

  1. Use of Partitioning and Bucketing.
  2. Avoiding a SELECT * while querying and using specific partitions to query.
  3. Using compression codecs while writing data.
  4. Using suitable File formats in Hive.
  5. Using Cost Based optimisation in Hive.
  6. With Amazon EMR release version 5.18.0 and later, you can use S3 Select with Hive on Amazon EMR. It allows applications to retrieve only a subset of data from an object.

'AWS > EMR' 카테고리의 다른 글

EMR 기본 설명 및 생성 방법  (0) 2022.01.19

댓글