사이트 신뢰성 엔지니어링이란 무엇인가요?
사이트 안정성 엔지니어링 (SRE)은 2003년 구글에서 DevOps 이전에 발명되었는데, 당시 소프트웨어 엔지니어 팀이 구글의 대규모 사이트를 더 효율적이고 안정적이며 확장 가능하게 만들어 달라는 요청을 받았습니다. 엔지니어가 개발한 관행은 매우 호응이 좋았기 때문에 넷플릭스와 아마존과 같은 다른 대기업도 이를 채택하여 혁신적인 관행을 도입했습니다.
시간과 혁신을 통해 SRE는 성능, 콜 모니터링, 용량 계획, 재해 대응을 포함한 운영 측면에 대한 자동 솔루션을 개발하는 것을 목표로 하는 완전한 IT 도메인이 되었습니다. 이 소프트웨어는 인프라 자동화 및 지속적인 제공과 같은 다른 핵심 DevOps 관행을 아름답게 보완합니다.
아래에 나열된 것은 사이트 안정성 엔지니어의 일반적인 책임입니다.
애플리케이션 성능을 사전에 감독하고 평가합니다.
긴급 지원 및 콜 지원도 처리합니다.
소프트웨어에 고품질 로깅 및 진단 기능이 있는지 확인하세요
운영 실행 설명서를 작성하고 유지 관리합니다.
지원 분류 제기 지원 티켓
기능 결함, 요청 및 기타 개발 작업에 대한 작업
전체 결과 로드맵에 추가
사이트 안정성 엔지니어는 어떤 일을 하나요?
SRE는 어떻게 오류 예산을 유지하고 일관된 시스템을 갖습니까? 이 질문에 답하기 위해 엔지니어가 매일 구현하는 네 가지 핵심 SRE 원칙에 대해 이야기해 보겠습니다.
1. 엔지니어링 중심의 보장