Data Engineering

GCP Data Engineer 대비 정리 - 용어정리

jinmc 2022. 4. 20. 12:50
반응형

각각의 서비스들에 대해서 알아보겠습니다.

각각의 서비스들에 대해서 간단히 정리해 보고, 특징 들에 대해서도 간단하게 요약해 보도록 하겠습니다.

비교적 Coursera data engineer 코스에서 많이 다루고, sample exam에서도 많이 다뤘던 내용들을 바탕으로 정리하였습니다.

 

Cloud Datastore에 대한 그래프

 

 

OLTP(online transaction processiong database) - normalization 필요 (대부분의 경우)

OLAP(online analyticial processing database) - used for data warehouse and data mart applications

 

DDL(Data definition language statements) - create and modify database schemas

DML(Data manipulation language statements) - insert, update, delete, query data

DQL(Data query language statements) - single statement SELECT 

 

Cloud Bigtable - Nosql, wide-column database. 인덱스를 사용하지 않는다고 합니다.

 

Cloud Datastore - Nosql 데이터베이스로서, atomic transaction, high availability of reads and writes, Massive Scalability with high performance, Flexible storage and querying of data 등을 제공합니다. payment transaction 을 관리하는 DB로도 좋다고 합니다.

 

BigQuery - Data warehousing에 맞는 managed service로써, petabyte에 달하는 데이터를 감당할 수 있는 analytical 스토리지 서비스입니다. SQL을 지원합니다.

 

Cloud Pub/sub - Messaging service that can buffer data in a topic until a service is ready to process data.

Good replacement for Kafka

 

Cloud Dataprep - service for preparing data for analysis

 

Cloud Datalab - Jupyter Notebook을 사용해서 데이터셋을 explore, analyze, visualize 할 수 있는 서비스 입니다.

 

Data studio - reporting tool.

프로그래밍 없이도 dataset을 explore할 수 있게 tabular reports와 basic charts를 보여줍니다.

 

Cloud Dataflow - batch and stream processing 서비스 입니다.

Implementation of Apache Beam.

good replacement for Java ELT programs.

 

Cloud Dataprocs - Managed Hadoop and Spark servcie, On-prem hadoop job이나 spark job들을 

재이용할 때 DataProcs를 활용한다고 합니다. GCS connector를 사용하면 GCS에 연결 할 수 있다고 합니다.

 

Cloud Spanner - transactional, scalabel relational database (관계형) 데이터베이스

not large scale analytics or machine learning!

구글 Cloud product 중 가장 비싸다고 합니다.

 

Cloud Firestore - Nosql Database. good replacement for mongoDB.

많은 인덱스 테이블들이 사용되고, 많은 저장 용량이 사용될수 있습니다.

 

Cloud Sql - Relational Database로서 fully managed service (mysql)로 생각하면 될 듯 합니다.

Cloud spanner가 큰 데이터베이스에 좀더 용이하고, Cloud Sql은 작은 데이터에 더 용이하다고 합니다. 

 

Compute Engine - amazon EC2, Azure vm 같은 GCP 버전의 cloud computing vm 입니다.

 

kubeflow - orchestration platform for running machine learning workloads in kubernetes

 

Cloud functions - managed serverless product입니다

 

Google Cloud Storage

구글에서 제공하는 obejct storage로써, 

Standard(제한없음), nearline(한달에 한번),  coldline(일년에 한번), archive(그 이상.. ) (엑세스 회수)

multi-region, dual-region, region 의 티어가 있습니다.

Typically used for batch uploads.

 

AutoML - Machine Learning service desinged for developers without a lot of knowledge.

(AutoML Vision, Nautral Language, Translation) 등이 있습니다

 

Stackdriver - integrated monitoring, logging, trace managed 서비스로서, 

logging, debugger, monitorincg, trace 등등 기능이 있습니다.

 

Shileded VM - 추가적인 보안 사항을 적용한 VM을 말합니다.

반응형

'Data Engineering' 카테고리의 다른 글

GCP Data Engineer 자격증 준비!  (0) 2022.04.07
데이터 품질관리 명칭 해석 및 도구들  (0) 2022.03.17