각각의 서비스들에 대해서 알아보겠습니다.
각각의 서비스들에 대해서 간단히 정리해 보고, 특징 들에 대해서도 간단하게 요약해 보도록 하겠습니다.
비교적 Coursera data engineer 코스에서 많이 다루고, sample exam에서도 많이 다뤘던 내용들을 바탕으로 정리하였습니다.
Cloud Datastore에 대한 그래프
OLTP(online transaction processiong database) - normalization 필요 (대부분의 경우)
OLAP(online analyticial processing database) - used for data warehouse and data mart applications
DDL(Data definition language statements) - create and modify database schemas
DML(Data manipulation language statements) - insert, update, delete, query data
DQL(Data query language statements) - single statement SELECT
Cloud Bigtable - Nosql, wide-column database. 인덱스를 사용하지 않는다고 합니다.
Cloud Datastore - Nosql 데이터베이스로서, atomic transaction, high availability of reads and writes, Massive Scalability with high performance, Flexible storage and querying of data 등을 제공합니다. payment transaction 을 관리하는 DB로도 좋다고 합니다.
BigQuery - Data warehousing에 맞는 managed service로써, petabyte에 달하는 데이터를 감당할 수 있는 analytical 스토리지 서비스입니다. SQL을 지원합니다.
Cloud Pub/sub - Messaging service that can buffer data in a topic until a service is ready to process data.
Good replacement for Kafka
Cloud Dataprep - service for preparing data for analysis
Cloud Datalab - Jupyter Notebook을 사용해서 데이터셋을 explore, analyze, visualize 할 수 있는 서비스 입니다.
Data studio - reporting tool.
프로그래밍 없이도 dataset을 explore할 수 있게 tabular reports와 basic charts를 보여줍니다.
Cloud Dataflow - batch and stream processing 서비스 입니다.
Implementation of Apache Beam.
good replacement for Java ELT programs.
Cloud Dataprocs - Managed Hadoop and Spark servcie, On-prem hadoop job이나 spark job들을
재이용할 때 DataProcs를 활용한다고 합니다. GCS connector를 사용하면 GCS에 연결 할 수 있다고 합니다.
Cloud Spanner - transactional, scalabel relational database (관계형) 데이터베이스
not large scale analytics or machine learning!
구글 Cloud product 중 가장 비싸다고 합니다.
Cloud Firestore - Nosql Database. good replacement for mongoDB.
많은 인덱스 테이블들이 사용되고, 많은 저장 용량이 사용될수 있습니다.
Cloud Sql - Relational Database로서 fully managed service (mysql)로 생각하면 될 듯 합니다.
Cloud spanner가 큰 데이터베이스에 좀더 용이하고, Cloud Sql은 작은 데이터에 더 용이하다고 합니다.
Compute Engine - amazon EC2, Azure vm 같은 GCP 버전의 cloud computing vm 입니다.
kubeflow - orchestration platform for running machine learning workloads in kubernetes
Cloud functions - managed serverless product입니다
Google Cloud Storage -
구글에서 제공하는 obejct storage로써,
Standard(제한없음), nearline(한달에 한번), coldline(일년에 한번), archive(그 이상.. ) (엑세스 회수)
multi-region, dual-region, region 의 티어가 있습니다.
Typically used for batch uploads.
AutoML - Machine Learning service desinged for developers without a lot of knowledge.
(AutoML Vision, Nautral Language, Translation) 등이 있습니다
Stackdriver - integrated monitoring, logging, trace managed 서비스로서,
logging, debugger, monitorincg, trace 등등 기능이 있습니다.
Shileded VM - 추가적인 보안 사항을 적용한 VM을 말합니다.
'Data Engineering' 카테고리의 다른 글
GCP Data Engineer 자격증 준비! (0) | 2022.04.07 |
---|---|
데이터 품질관리 명칭 해석 및 도구들 (0) | 2022.03.17 |