[대규모 시스템 설계 기초 - 01] 사용자 수에 따른 규모 확장성 :: 애용이의 개발 공부

ABOUT ME

-

Today: -

Yesterday: -

Total: -

[대규모 시스템 설계 기초 - 01] 사용자 수에 따른 규모 확장성

📚 개발 도서/대규모 시스템 설계 기초 2023. 1. 13. 19:00
[01] 사용자 수에 따른 규모 확장성

한 명의 사용자를 지원하는 시스템에서, 몇백만 사용자를 지원하는 시스템에 이르기까지 설계

단일 서버

모든 컴포넌트(웹 앱, 데이터베이스, 캐시 등)가 단 한 대에 서버에서 실행되는 간단한 시스템

사용자 요청 과정

클라이언트는 DNS에 도메인 이름으로 IP를 질의한다. DNS는 우리 시스템의 일부는 아니다.

클라이언트는 DNS 조회 결과로 IP를 얻어온다. 이 IP 주소는 웹 서버의 주소이다.

이 IP 주소로 클라이언트는 HTTP 요청을 전달한다.

웹 서버는 클라이언트에게 HTML 웹 페이지를 전달한다.

데이터베이스 서버 분리

사용자가 늘어나면, 단일 서버로는 부족하여 웹계층(웹/모바일 트래픽 처리 서버)와 데이터 계층(데이터베이스 서버)로 분리할 수 있다.
이는 각각을 독립적으로 확장할 수 있다.

어떤 데이터베이스?

데이터베이스는 관계형 데이터베이스(MySQL, Oracle, PostgreSQL, …)와 비관계형 데이터베이스(NoSQL - MongoDB, DynamoDB, Neo4j, Cassandra, HBase, …)로 나눌 수 있다.

대부분의 경우, 관계형 데이터베이스가 최선이지만 적합하지 않는 경우가 있을 수 있다.

언제 비관계형 데이터베이스를 사용할까?

아주 낮은 latency가 요구되는 경우

다루는 데이터가 비정형(unstructured)이라 관계형 데이터가 아닌 경우

데이터(JSON, YAML, XML, …)를 직렬화/역직렬화만 하면 되는 경우

아주 많은 양의 데이터를 저장할 필요가 있는 경우

수직적 규모 확장 vs 수평적 규모 확장

수직적 규모 확장(scale up): 서버에 고사양 자원(더 좋은 CPU, 더 많은 RAM)을 추가하는 행위

트래픽이 적은 경우 좋은 선택이다.

하지만, 한 대의 서버에 CPU나 메모리를 무한대로 증설할 방법은 없다. (한계가 있다)

또한 장애에 대한 자동 복구(failover)나 다중화(redundancy) 방안을 제시하지 않는다.→ 대규모 애플리케이션에는 scale out이 더 적절하다.

서버에 장애가 발생하면 모든 웹사이트/앱은 서비스가 중단된다.

수평적 규모 확장(scale out): 더 많은 서버를 추가하는 행위

수평적 규모 확장(Scale out)을 하는 방법

지금까지의 설계는 사용자가 웹서버에 바로 연결된다. 웹 서버가 다운되면 사용자는 웹 사이트에 접속할 수 없다. 트래픽이 너무 많아져 웹서버가 한계에 도달하면 응답속도가 느려지거나 접속이 불가능해진다.
이런 문제를 해결하기 위해 로드 밸런서를 도입해야한다.

로드밸런서

로드밸런서는 부하 분산 집합(load balancing set)에 속한 웹서버들에게 트래픽 부하를 고르게 분산하는 역할을 한다. 사용자는 웹서버 대신 로드밸런서의 public IP로 접속한다. 로드밸런서와 웹서버간에는 private IP를 사용하여 통신한다. (for 보안) 따라서, 웹서버는 클라이언트의 접속을 직접 처리하지 않는다.

로드밸런서의 도입으로

failover(자동 복구하지 못하는 문제) 해소

웹계층의 availability(가용성) 향상

데이터베이스 다중화

웹계층은 개선했지만, 아직 데이터베이스 서버는 하나이다. 자동 복구나 다중화를 지원하지 않는다. 데이터베이스 다중화는 이런 문제를 해결한다.

master-slave 구조

쓰기 연산은 master에서만 지원하고, slave는 master로부터 사본을 전달받아 읽기 연산만을 지원한다.

대부분의 애플리케이션은 읽기 연산이 쓰기 연산보다 많다. → 보통 master 서버보다 slave 서버의 수가 많다.

slave 서버가 다운되었다면, 읽기 연산을 한시적으로 master 서버로 전달한다.

데이터베이스를 다중화하면

더 나은 성능: master-slave 다중화 모델에서 모든 쓰기 연산은 master로, 읽기 연산은 다수의 slave로 분산된다. 병렬로 처리되는 쿼리의 수가 늘어나므로 성능이 향상된다.

안정성: 자연 재해등으로 서버 일부가 파괴되어도 데이터가 보존된다. (지리적으로 떨어져있는 곳으로 서버를 다중화 시킬 수 있어서)

가용성: 한 서버에 장애가 발생해도, 다른 서버에 있는 데이터로 계속 서비스를 이어나갈 수 있다.

참고

multi-master 구조

캐시

캐시는 값비싼 연산 결과 / 자주 참조되는 데이터를 메모리 안에 두고, 같은 요청이 보다 빨리 처리될 수 있도록 하는 저장소다.****

애플리케이션의 성능은 데이터베이스를 얼마나 자주 호출하느냐에 크게 좌우되고(because of 네트워크, IO), 캐시는 이 문제를 완화할 수 있다.

캐시 계층은 데이터가 잠시 보관되는 곳으로 데이터베이스보다 훨씬 빠르다. 데이터베이스는 데이터를 Disk에 저장하고, 캐시는 RAM에 저장하기 때문이다.

별도의 캐시 계층을 두면

성능이 개성된다.

데이터베이스 부하가 줄어든다.

캐시 계층을 독립적으로 확장할 수 있다.

캐시 사용 시 유의점

캐시는 어떤 상황에 바람직할지

데이터 갱신은 자주 일어나지 않지만 참조는 빈번하게 일어나는 경우 고려한다.

어떤 데이터를 캐시에 두어야하는지중요한 데이터는 영속성 저장소(persistent data store)에 두어야한다.

영속적으로 보관할 데이터를 캐시에 두는 것은 바람직하지 않다. 캐시는 휘발성 메모리에 데이터를 저장하기 때문이다.

캐시에 보관된 데이터 만료(expire) 정책 마련

만료 기한이 너무 짧다: 데이터를 너무 자주 읽게 된다.

만료 기한이 너무 길다: 데이터가 원본과 차이가 날 가능성이 높아진다.

일관성은 어떻게 유지되는지

저장소의 원본을 갱신하는 연산과 캐시를 갱신하는 연산이 단일 트랜잭션으로 처리되지 않는 경우 이 일관성은 깨질 수 있다.

여러 지역에 걸쳐 시스템을 확장하는 경우, 캐시와 저장소 사이의 일관성을 유지하는것은 어려운 문제이다.

장애 대처 방법(어떤 특정 지점에서의 장애가 전체 시스템의 동작을 중단시켜버릴 수 있는 경우, 해당 지점을 단일 장애 지점(SPOF)이라고 부른다)

캐시 서버를 한대만 두면 단일 장애 지점(Single Point of Failure, SPOF)가 될 수 있다. SPOF를 피하려면, 여러 지역에 걸쳐 캐시 서버를 분산해야한다.

캐시 메모리는 얼마나 크게 잡을 것인가?→ 캐시 메모리를 과할당(overprovision)하는 것이 하나의 방법 → 캐시에 보관될 데이터가 갑자기 늘어났을 때 생길 문제가 방지될 수 있게 된다.

캐시 메모리가 너무 작으면 액세스 패턴에 따라서는 데이터가 너무 자주 캐시에 밀려나버려서(eviction) 캐시 성능이 떨어지게 된다.

데이터 방출(eviction) 정책

LRU: 마지막으로 사용된 시점이 가장 오래된 데이터를 먼저 내보낸다.

LFU: 사용된 빈도가 가장 낮은 데이터를 내보낸다.

FIFO: 가장 먼저 캐시에 들어온 데이터를 가장 먼저 내보낸다.

참고) eviction과 swap?

OS에 의해 물리 메모리를 가득 사용하게 되면 메모리 swap이 발생한다.
→ 이때 디스크 접근
→ 성능 저하
→ 성능 보완하기 위해 물 리메모리를 가득차게 하지 않도록 하기 위해 eviction 정책을 사용한다.

캐시가 꽉 차버린 상태에서 추가로 데이터를 넣어야한다면 기존 데이터를 내보내야한다.

CDN(컨텐츠 전송 네트워크)

CDN은 정적 콘텐츠 (이미지, 비디오, CSS, Javascript) 를 전송하는데 쓰이는 지리적으로 분산된 서버의 네트워크이다.

대용량 또는 사용자의 잦은 요청이 있는 컨텐츠들을 Cache 서버에 분산 배치하여 컨텐츠의 전송 중 발생하는 트래픽 집중(각 서버로 분산) & 병목현상 및 데이터 손실을 해결하기 위해 등장한 컨텐츠 전송 기술이다.
(느린 응답 속도/다운로딩 타임을 극복)

사용자가 웹사이트를 방문하면, 그 사용자에게 가장 가까운 CDN 서버가 정적 콘텐츠를 전달한다.

동작 과정

사용자가 이미지 URL을 이용해 이미지에 접근한다. 이 URL의 도메인은 CDN 서비스 사업자가 제공한다.

CDN 서버에 해당 이미지가 없는 경우 CDN 서버는 원본 서버에 요청해 파일을 가져온다.
(원본 서버는 웹 서버일수도, S3 같은 온라인 저장소일 수도 있다.)

원본 서버가 CDN 서버에 파일을 반환한다. HTTP 응답 헤더에는 해당 파일이 얼마나 오래 캐시될 수 있는지 나타내는 TTL(Time-To-Live) 값이 들어있다.

CDN서버는 파일을 캐시하고 사용자에게 반환한다. 이 이미지 파일은 TTL에 명시된 시간만큼 캐시된다.

다른 사용자가 동일한 이미지를 CDN 서버에 요청한다.

해당 이미지가 만료되지 않았다면 CDN 서버가 캐시해둔 파일을 반환한다.

고려 사항

비용: CDN은 보통 3rd-party provider에 의해 운영되며, 데이터 전송양에 따라 요금을 지불한다. 자주 사용되지 않는 콘텐츠를 캐싱하는 것은 비용 낭비다.

적절한 만료 시한 설정: 시의성이 중요한(time-sensitive) 콘텐츠는 만료 시점을 잘 설정하는게 중요하다. 캐시 서버의 만료 정책과 비슷하다.

CDN 장애에 대한 대처 방안: CDN이 응답하지 않은 경우 이 문제를 감지하여 원본 서버로부터 콘텐츠를 가져올 수 있도록 클라이언트를 구성할 필요가 있다.

콘텐츠 무효화(invalidation) 방법: 아직 만료되지 않은 콘텐츠라고 하더라도 아래 방법을 통해 CDN에서 캐시를 제거할 수 있다.

CDN 서비스 사업자가 제공하는 API

콘텐츠의 다른 버전을 서비스하도록 오브젝트 버저닝(object versioning)을 *이용한다. URL 마지막에 버전 번호를 인자로 준다. ex) *image.png?v=2 like cache bursting(unique file version identifier를 사용하여 브라우저에게 새로운 버전이 있음을 알려준다.)

무상태 웹계층

웹계층을 수평적으로 확장한다.

상태 정보 의존적인 아키텍처

상태 정보를 보관하는 서버는 클라이언트 정보, 즉 상태를 유지하여 요청들 사이에 공유되도록 한다.

문제 중 하나는 같은 클라이언트로부터의 요청은 항상 같은 서버로 전송해야 한다는 문제가 있다.

→ 이는 로드밸런서에 부담을 준다.

로드 밸런서에서 sticky session을 제공하지만 이는 로드밸런서에 부담을 주고, 서버를 추가하거나 제거하기도 까다로워진다. 서버의 장애를 처리하기도 복잡해진다.

웹계층 수평적 확장 시에는 무상태 웹 계층을 구성해야한다.

방법: 상태 정보를 관계형 데이터베이스나 NoSQL같은 지속성 데이터 보관소에 저장하고, 필요할 때 가져오도록 할 수 있다.

데이터 센터

서비스가 전 세계적으로 사용하게 되었다고 가정하면, 가용성을 높이고 전세계 어디서든 쾌적하게 사용하기 위해 데이터 센터(data center)를 지원하는 것이 필수이다.

다중 데이터센터 아키텍처를 만들기 위해서 다음의 기술적 난제를 해결해야 한다.

트래픽 우회: 올바른 데이터 센터로 트래픽을 보내는 효과적인 방법을 찾아야한다. (ex. GeoDNS)

데이터 동기화(synchronization): 데이터 센터마다 별도의 데이터베이스를 사용하면, 장애가 자동으로 복구되어(failover) 트래픽이 다른 데이터베이스로 우회된다 해도, 해당 데이터센터에는 찾는 데이터가 없을 수 있다.
이런 상황을 막으려면 데이터를 여러 데이터 센터에 거쳐 다중화 해야한다. ex) 넷플릭스

테스트와 배포(deployment): 여러 데이터 센터에서 웹 사이트 혹은 애플리케이션을 테스트 해보는게 중요하다.

시스템을 더 큰 규모로 확장하기 위해서는 시스템의 컴포넌트를 분리하여, 각기 독립적으로 확장될 수 있도록 하여야 한다

메세지 큐

시스템을 더 큰 규모로 확장하려면, 시스템의 컴포넌트를 분리(느슨한 결합, loose coupling)하고 각기 독립적으로 확장될 수 있도록 해야한다.

메시지 큐는 많은 실제 분산 시스템이 이 문제를 풀기 위해 사용하는 핵심적인 전략이다.

메세지의 무손실을 보장하는 비동기를 지원하는 컴포넌트이다. 메세지의 버퍼 역할을 하며, 비동기적으로 전송한다.

메시지 큐를 사용하면 서비스 또는 서버 간 결합이 느슨해져, 규모 확장성이 보장되어야 하는 안정적인 애플리케이션을 구성하기 좋다. 또, 결함에 대한 내성을 높여준다.

로그, 메트릭 그리고 자동화

로그: 에러 로그를 모니터링 하는 것은 중요하다. 시스템의 오류와 문제를 보다 쉽게 찾아낼 수 있도록 하기 때문이다. 서버 단위로 로그를 모니터링하는 것도 좋지만, 로그를 하나로 모아주는 도구를 활용하면 더 편리하게 검색, 조회 할 수 있다.

메트릭: 메트릭을 잘 수집하면 사업 현황에 관한 유용한 정보를 얻을수도 있고, 시스템의 현재 상태를 손쉽게 파악할 수 있다.

호스트 단위 메트릭: CPU, 메모리, 디스크 I/O에 관한 메트릭

종합(aggregated) 메트릭 : 데이터베이스 계층의 성능, 캐시 계층의 성능

핵심 비즈니스 메트릭: 일별 활성 사용자(daily active user), 수익, 재방문(retention) 같은 것들

자동화: 시스템이 크고 복잡해지면, 생산성을 위해 자동화 도구를 활용해야한다. 빌드, 테스트, 배포 등의 절차를 자동화할 수 있다.

데이터베이스의 규모 확장

저장할 데이터가 많아지면 데이터베이스에 대한 부하도 증가한다. 이때 데이터베이스를 증설할 방법을 찾아야 한다.

데이터베이스 규모를 확장하는 방법엔 수직적 규모 확장법과 수평적 규모 확장법 두가지로 나뉘어진다.

수직적 확장

데이터베이스 서버의 CPU, RAM, 디스크와 같은 자원을 증설하는 방법이다. 수직적 접근법에는 몇가지 심각한 약점이 있다.

서버 하드웨어를 무한 증설할 수 없다. → 한계 존재

SPOF로 인한 위험이 있다.

고성능 서버일수록 비용이 많이 발생한다.

수평적 확장

데이터베이스의 수평적 확장을 샤딩(sharding)이라고 부른다.

샤딩은 대규모 데이터베이스를 샤드(shard)라고 부르는 작은 단위로 분할한다. 모든 샤드는 같은 스키마를 사용하지만, 샤드에 보관되는 데이터 사이에는 중복이 없다.

샤딩 전략에서 가장 중요한 것은 샤딩 키를 정하는 방법이다.

다음의 문제를 고려해야한다.

데이터의 재샤딩 : 데이터가 너무 많아져서 하나의 샤드로 감당이 힘들 때
→ 샤드키를 계산하는 함수를 변경하고 데이터를 재배치해야한다. 안정 해시(consistent hashing) 기법을 사용하여 이 문제를 해결할 수 있다.

유명인사 문제(핫스팟 키 문제): 특정 샤드에 질의가 집중될 때
→ 자주 질의되는 유명인사(키) 각각에 샤드 하나씩을 할당하거나 더 잘게 쪼갠다.

조인과 비정규화: 여러 샤드에 걸친 데이터는 조인하기 힘들 때
→ 데이터베이스를 비정규화하여 하나의 테이블에서 질의가 수행될 수 있게 한다.
반응형

저작자표시 비영리 변경금지

'📚 개발 도서 > 대규모 시스템 설계 기초' 카테고리의 다른 글

RDB와 NoSQL (0) 2023.06.08

Consistent Hashing (안정 해시) (0) 2023.02.12
관련글 관련글 더보기
- RDB와 NoSQL
- Consistent Hashing (안정 해시)
댓글

인기포스트

ABOUT ME

📌 기술 스터디 공간

LINK

ADMIN

티스토리툴바