study checklist
Дополнительные материалы
0 / 78материалов отмечено
Observability fundamentals
The Three Pillars of Observabilityдаёт фундамент наблюдаемости распределённых систем
↗ Google SRE Book: Monitoring Distributed Systemsобъясняет мониторинг распределённых систем с позиции SRE
↗ Google SRE Workbook: Alerting on SLOsпоказывает алертинг от SLO и error budget
↗ Go logs и profiling
log/slog packageдаёт API структурного логирования slog в Go
↗ Go blog: Structured Logging with slogобъясняет мотивацию и дизайн slog в Go
↗ net/http/pprofпоказывает HTTP-эндпоинты pprof для Go-приложений
↗ Profiling Go Programsучит профилировать Go-программы с помощью pprof
↗ Diagnostics in Goобобщает диагностику производительности и отладки Go
↗ Go tool traceобъясняет анализ трасс выполнения через go trace
↗ Русскоязычные материалы по Go logs/profiling
Перевод: структурированное логирование в Go с помощью Slogпоказывает практическое структурное логирование через slog
↗ Непрерывное профилирование в Go / Хабрвводит профилирование Go и типовые инструменты диагностики
↗ Go profiling lifecycle: от разработки до прода / Хабрпоказывает современные практики логирования в Go
↗ Go: тонкости профилирования CPU / Хабрразбирает observability-подходы для Go-сервисов
↗ pprof в golang: исправляем утечку памяти / Хабрпомогает начать с pprof и диагностики Go
↗ Видео: Профилирование Go приложенийпоказывает профилирование Go-приложений на реальном кейсе
↗ Metrics и Prometheus
Prometheus Documentationдаёт обзор Prometheus и его модели сбора метрик
↗ Prometheus Data Modelобъясняет модель данных и labels в Prometheus
↗ Prometheus Metric Typesразбирает counter, gauge, histogram и summary
↗ Prometheus Histograms and Summariesучит правильно использовать histogram и quantile
↗ Prometheus: Instrumenting Go applicationsпоказывает экспорт метрик из Go-приложения
↗ client_golangдаёт API клиентской библиотеки Prometheus для Go
↗ PromQL Basicsобъясняет основы PromQL и селекторы временных рядов
↗ Prometheus Functionsслужит справочником функций PromQL для анализа метрик
↗ Prometheus Recording Rulesпоказывает recording rules для предвычисленных метрик
↗ Prometheus: Alerting rulesобъясняет правила алертинга в Prometheus
↗ Prometheus: When to use Pushgatewayобъясняет когда Pushgateway уместен и опасен
↗ Prometheus Security Modelразбирает модель безопасности и ограничения Prometheus
↗ Русскоязычные материалы по Prometheus, SLO и Grafana
Prometheus + Grafana: 4 golden signals и другие подходы / Хабрпоказывает практическое внедрение Prometheus и Grafana
↗ Как из метрик Prometheus построить график Latency / Хабробъясняет базовые метрики и алерты Prometheus
↗ Как работает гистограмма Prometheus? / Хабркратко вводит Prometheus как систему мониторинга
↗ Человеческим языком про метрики 4: PromQL / Хабрразбирает практику Prometheus в Kubernetes-среде
↗ Как правильно использовать rate() в Grafana / Хабркратко показывает полезные приёмы работы с Prometheus
↗ SLI/SLO. Что такое Error Budget Burn Rate на самом деле / Хабрдаёт быстрый обзор наблюдаемости и мониторинга
↗ Основы мониторинга: Prometheus и Grafana / Хабрразбирает настройку метрик и алертов на практике
↗ Видео: Мониторинг и Логи PROD уровняобъясняет Prometheus и Grafana через практический доклад
↗ OpenTelemetry и tracing
OpenTelemetry Goдаёт вход в OpenTelemetry для Go-приложений
↗ OpenTelemetry Go instrumentationпоказывает ручное инструментирование Go-кода телеметрией
↗ OpenTelemetry Go exportersобъясняет экспорт trace и metric данных из Go
↗ OpenTelemetry Semantic Conventionsописывает semantic conventions для унифицированной телеметрии
↗ OpenTelemetry Resource Semantic Conventionsобъясняет resource attributes и идентификацию сервисов
↗ OpenTelemetry Context Propagationпоказывает распространение контекста между сервисами
↗ OpenTelemetry Baggageобъясняет baggage для передачи сквозных атрибутов
↗ OpenTelemetry Collectorвводит Collector как центральный компонент телеметрии
↗ OpenTelemetry Collector Configurationразбирает конфигурацию receivers, processors и exporters
↗ W3C Trace Contextзадаёт стандарт передачи trace context через HTTP
↗ Русскоязычные материалы по OpenTelemetry
OpenTelemetry стек в Go: Metrics, Tracing, Logs / Хабрразбирает OpenTelemetry и практическое трассирование сервисов
↗ Трейсинг в Go — это просто / Хабрпоказывает внедрение распределённой трассировки через OpenTelemetry
↗ Наблюдаемость "по-взрослому": опыт внедрения OpenTelemetry / Хаброписывает взрослое внедрение OpenTelemetry в инфраструктуре
↗ Кастомный процессор для OpenTelemetry Collector / Хабрпоказывает создание кастомного процессора OpenTelemetry Collector
↗ OpenTelemetry на практике / Илья Казначеев, Golang Channelразбирает OpenTelemetry на практике для Go-сервисов
↗ OpenTelemetry для самых маленьких / Александр Гольдебаевдаёт короткое резюме материала по наблюдаемости
↗ Grafana stack
Grafana documentationслужит входом в документацию Grafana и дашбордов
↗ Grafana Lokiвводит Loki как систему хранения и поиска логов
↗ Grafana Loki labels and cardinalityобъясняет кардинальность labels и цену плохих меток
↗ Promtail EOL noticeпоказывает отправку логов в Loki через Promtail
↗ Grafana Loki OTLPобъясняет отправку логов в Loki через OpenTelemetry
↗ Grafana Tempoвводит Tempo как хранилище распределённых трасс
↗ Tempo: set up Collectorпоказывает отправку трасс в Tempo через Collector
↗ Grafana Alloyвводит Grafana Alloy как агент сбора телеметрии
↗ ELK/EFK и logs pipeline
Elastic Stack documentationдаёт вход в документацию Elastic Stack
↗ Elastic OpenTelemetry intake APIпоказывает приём OTLP-данных в Elastic Observability
↗ Fluent Bit Documentationслужит основной документацией Fluent Bit для логов
↗ OpenSearch Documentationдаёт вход в документацию OpenSearch и observability
↗ Русскоязычные материалы по logs stack
Kubernetes Observability: логгинг с EFK / Хабркратко показывает EFK-логирование в Kubernetes
↗ Логирование в Kubernetes: как собирать, хранить, парсить и обрабатывать логи / Хабрразбирает сбор и хранение логов в Kubernetes
↗ Централизованное логирование Docker контейнеров с Lokiпоказывает централизованное логирование Docker через Loki
↗ Видео: Как логи превращаются в метрики: Fluent Bit в делепоказывает превращение логов в метрики через Fluent Bit
↗ Incident response
Google SRE Book: Postmortem Cultureобъясняет культуру blameless postmortem после инцидентов
↗ Google SRE Workbook: Incident Responseдаёт практики реагирования на инциденты в SRE
↗ Google SRE Workbook: On-Callразбирает организацию on-call и дежурств
↗ Incident Management at Atlassianобъясняет процесс incident management для команд разработки
↗ PagerDuty Incident Response Docsдаёт практическое руководство по реагированию на инциденты
↗ Prometheus alerting practicesобъясняет хорошие практики алертинга в Prometheus
↗ Alertmanager documentationразбирает Alertmanager, маршрутизацию и подавление алертов
↗ Русскоязычные материалы по incident response
Постмортем инцидентов для начинающих / Хабркратко объясняет постмортемы без поиска виноватых
↗ SRE: управление инцидентами / Хабрразбирает SRE-подход к управлению инцидентами
↗ Инцидент-менеджмент с нуля / Хабрдаёт практический гайд по incident management
↗ Руководство по проведению постмортемов / Хабрпоказывает структуру постмортема и root cause analysis
↗