مهندسی قابلیت اطمینان سایت (SRE) یا (Site Reliability Engineering) رویکردی است که توسط گوگل معرفی شد و ترکیبی از مهندسی نرمافزار و عملیات (Ops) است. هدف SRE افزایش قابلیت اطمینان، کارایی و مقیاسپذیری سیستمهای نرمافزاری است. این رویکرد بر اساس خودکارسازی وظایف تکراری، مدیریت عملکرد سیستمها، و کاهش زمان خرابی طراحی شده است.
وظایف SRE شامل پایش، گزارشدهی، مدیریت حوادث، و بهینهسازی سیستمها است. مهندسان SRE از ابزارهای برنامهنویسی برای خودکارسازی عملیات و کاهش مداخله انسانی استفاده میکنند. یکی از مفاهیم کلیدی SRE، تعیین SLA (توافق سطح خدمات)، SLO (اهداف سطح خدمات)، و SLI (شاخصهای سطح خدمات) است که معیارهای عملکرد سیستمها را مشخص میکند.
تمرکز اصلی SRE روی ایجاد تعادل بین سرعت توسعه و پایداری سیستم است.