본문 바로가기
  • This is Russell - the most handsome and the smartest.

BIGDATA2

[풀글] ETL 그리고 ELT 0. Intro "데이터를 적재하고 가공한다" 라는 것이 일반적으로 생각하는 (수집) 데이터 엔지니어링의 프로세스 인 것 같다. (적어도 내가 생각했던 기준은 그러했다) 머신러닝을 위해선 많은양의 데이터가 필요하고 그것을 가공하여 트레이닝 하는데에 있어서 사용된다고 생각했다. 고로 데이터는 일단 무조건 많을수록 좋다 라고 생각했다. 최근 MLOps 를 공부하면서 관련된 많은 유튜브 동영상들을 보았다. 그 중 Andrew Ng 의 동영상이 있었는데 (A chat with Andrew on MLOps) 여러가지 내용들을 다루지만, 그 중 가장 인상 깊었던 부분은 데이터의 퀄리티를 올리는 것이 머신러닝 알고리즘의 성능을 올리는 것 보다 긍정적인 변화가 크다는 것 이다. 즉, 정확도를 올리는 데에 있어서 많은 .. 2022. 1. 26.
EMR 기본 설명 및 생성 방법 EMR ? - Elastic MapReduce 의 줄임 - AWS 에서 제공하는, 빅데이터 플랫폼 구축 및 운영에 최적화 된 클라우드 서비스 - 아파치의 스파크, 하이브, 프레스토, 그리고 이외의 빅데이터 플랫폼들을 실행 및 관리하기 위한 서비스 사용 사례 - 빅데이터 분석 수행 - 확장 가능한 데이터 파이프라인 구축 - 실시간 데이터 스트림 처리 - 데이터 과학 및 기계 학습 채택 가속화 내가 이해한 것, 빅데이터가 떠오르면서 많이 들어본 프로젝트들의 일부의 이름을 나열하자면 다음과 같다. -Apache Spark, Apache Hive, HDFS, MapReduce, Elastic Search, Sqoop, Kafka ... 각각의 개념과 어떤 일을 하는지 설명하기엔 너무 길고, 간단히 이야기 하자면.. 2022. 1. 19.