SRE(Site Reliability Engineering)란?
SRE(Site Reliability Engineering, 사이트 신뢰성 엔지니어링)는 대규모 소프트웨어 시스템의 신뢰성, 가용성, 성능을 안정적으로 유지하기 위한 운영 방식입니다.
SRE는 Google에서 처음 제안된 개념으로 서비스 운영을 단순한 관리 작업이 아닌 소프트웨어 엔지니어링 문제로 접근하는 것이 특징입니다.
즉, 운영 업무를 자동화와 코드 기반으로 관리하여 안정적인 서비스를 제공하는 것이 SRE의 핵심 목표입니다.
SRE의 특징
기존 운영 방식은 개발팀과 운영팀이 분리되어 있어 서비스 안정성을 관리하는 데 한계가 있었습니다.
SRE는 이러한 문제를 해결하기 위해 개발과 운영을 통합하고 자동화를 적극 활용합니다.
주요 특징
- 서비스 가용성 및 안정성 관리
- 모니터링과 장애 대응
- 반복적인 운영 작업 자동화
- 시스템 성능 및 확장성 관리
SRE의 핵심 개념
SRE에서는 서비스 신뢰성을 관리하기 위해 다음 지표를 사용합니다.
| 개념 | 설명 |
| SLI | 서비스 성능을 측정하는 지표 |
| SLO | 서비스가 달성해야 할 목표 수준 |
| SLA | 서비스 제공자와 사용자 간의 서비스 수준 계약 |
| Error Budget | 서비스가 허용할 수 있는 장애 범위 |
SRE는 서비스 신뢰성을 높이기 위한 엔지니어링 기반 운영 방식으로 자동화와 모니터링을 통해 안정적인 서비스 운영과 효율적인 시스템 관리가 가능하도록 합니다.
참고URL
- redhat.com : https://www.redhat.com/ko/topics/devops/what-is-sre
- netapp.com : https://www.netapp.com/ko/devops-solutions/what-is-site-reliability-engineering/
- microsoft.com : https://docs.microsoft.com/ko-kr/learn/modules/intro-to-site-reliability-engineering/
- elastic.co : https://www.elastic.co/kr/blog/elastic-observability-sre-incident-response
'용어정리' 카테고리의 다른 글
| 메타버스 (0) | 2023.03.08 |
|---|---|
| 일반 최상위 도메인(gTLD) 리스트 (0) | 2023.02.19 |
| RPS(Requests Per Second) (0) | 2021.08.02 |
| SPA vs MPA (0) | 2013.08.20 |
| RAID(redundant array of independent [또는 inexpensive] disks)의 개념과 종류 (0) | 2013.06.20 |