- flame graph는 성능 분석에는 자주 사용, 그 외에는 별로 사용되지 않는데, 트위터에서 매트릭 분석에 flame graph를 사용한 사례
- Twitter 내부의 매트릭 수집은 매년 30~40%씩 증가, 최근 이 증가속도가 더 커지게 되어 분석 시작
- 매트릭을 서비스의 어떤 기능이 가장 많이 보내고 있는지, 어떤 매트릭 키스페이스가 많은 매트릭을 생성했는지 알기 위해 flame graph 적용
- 쉽게 어떤 매트릭 키스페이스가 큰지 찾음. 이 분석으로 가장 큰 서비스 중 하나인 광고팀의 매트릭을 33% 감소
- Dashboardless는 "대시보드가 필요없다, 대시보드를 쓰지 않는다"는 의미라기 보다 서버 인프라 측면에서 Serverless라는 용어를 염두에 두고 이해하면 좋음
- Serverless는 "마치 서버가 없는 것처럼, 사용자가 필요할 때 사용하고 싶은 만큼 서버를 편리하게 사용할 수 있다"라는 의미
- 즉, Dashboardless는 "원하는 정보를 제약없이, 데이터 분석의 흐름에 따라 유연하게 사용할 수 있게 해준다"의 의미
- (대시보드는 한판에 정보를 요약해주는 장점, 그 한판에 들어있지 않는 정보는 찾아보기 힘든 단점)
- 대시보드를 어떻게 작성하고 관리해야 할까에 대한 인사이트를 얻을 수 있는 글
Dashboardless는 "대시보드가 필요없다, 대시보드를 쓰지 않는다"는 의미라기 보다 서버 인프라 측면에서 Serverless라는 용어를 염두에 두고 이해하면 좋음
- "대시보드는 꼭 필요한 것은 아니다(오히려 잘못 만들어진 대시보드는 사용자를 오도할 수 있음). 하지만, 잘 만들어진 대시보드는 유용하다"
k8spacket을 사용하는
k8spacket으로 Kubernetes 클러스터 안에서 TCP 패킷을 모니터링해서 Grafana로 시각화하는 방법을 설명
k8spacket으로 띄워서 10초마다 네트워크를 모니터링하고 각 Pod, Service 간에 TCP 연결과 트래픽이 오가는 것을 확인 가능
데이터를 3차원으로 표시할 수 있는 XYZ 차트 도입. 아직은 알파버전이라
를 설정해야 사용 가능
데이터를 3차원으로 표시할 수 있는 XYZ 차트 도입. 아직은 알파버전이라
- Grafana 10.3에 Span Profile 기능 추가
- 기존 continuous profiling에서는 고정된 간격으로 시스템 전체에 대한 보기 제공
- Span Profile에서는 개별 요청을 포함해서 애플리케이션의 특정 실행 범위에 대한 분석 제공
- 개발-운영 생산성 모니터링하기 (with Devlake, Grafana)
- 인프런에서 DORA의 생산성 매트릭인 배포 빈도, 변경 사항이 적용되는 시간, 변경 실패율, 서비스 복원 시간을 측정해서 가시화하기 위해 작업한 내용
- 여러 도구를 검토 후 오픈소스인 Devlake를 이용해서
- GitHub, Jenkins, Jira를 연동해서 데이터 수집
- MySQL에 저장
- 이 데이터를 Grafana에 데이터소스로 연결
- 대시보드를 통해서 빌드, PR, 커밋, 이슈 등의 통계를 한 번에 볼 수 있게 작성
- Grafana 대시보드를 만들 때 가장 중요한 것은 특정 목적이나 사용 사례를 염두에 두고 설계해야 한다는 점
- 시각적 계층 구조를 이용
- 중요도 순으로 정렬
- 크기를 다르게 배치
- 중요한 패널은 색상을 사용해서 사용자의 시선 유도 가능
- 목적에 맞는 올바른 메트릭을 사용해야 하는데 RED나 USE 방법론이 도움
- LogQL 없이 Loki에 저장된 로그를 (미리 정리해 둔 것처럼) 탐색할 수 있는 그라파나의 기능 (Grafana 11 + Loki 3.0 필요)
- 몇 주전 GrafanaCON에서 공개된 텔레메트리 데이터 통합도구
- 자체 기능 구현 보다는, (사실상 표준인) 프로메테우스와 오픈텔레메트리 플러그인들을 내장하여 제공하는 형태(그라파나의 ‘빅 텐트’ 전략?)
- 텔레메트리 데이터 전송을 위해 서버에 설치되는 프로그램을 알로이 하나로 통합(일부지만)
- 예를 들어 서버 메트릭 수집을 위해 node-exporter, prometheus(or OTel)을 설치했다면, Alloy 하나만 설치하고
- Alloy에 내장된 exporter, prometheus 컴포넌트를 사용하는 방식
- Introducing an OpenTelemetry Collector distribution with built-in Prometheus pipelines: Grafana Alloy | Grafana Labs
- Grafana가 OpenTelemetry Collector인 Grafana Alloy 공개
- Alloy는 Prometheus와 OpenTelemetry 모두와 호환되므로 기존 시스템에 유연하게 적용
몇 주전 GrafanaCON에서 공개된 텔레메트리 데이터 통합도구
- Grafana 대시보드를 코드로 관리하는 다양한 도구 소개
- Grafana Terraform 프로바이더나 Ansible 컬렉션은 Terraform이나 Ansible에는 익숙하지만 Grafana에는 아직 익숙지 않은 사람에게 권장
- Grizzly은 Grafana 리소스를 YAML로 정의해서 관리할 수 있는 CLI로 Grafonnet을 사용한 Jsonnet도 사용 가능
- Grafana Crossplane 프로바이더나 Kuberentes Grafana 오퍼레이터를 이용해서 Kubernetes에서 Grafana 대시보드를 관리 가능
- Agent는 Grafana 스택에 최적화되어 매트릭, 로그 등을 수집해서 보내주는 에이전트
- 이 에이전트에 프로그래밍할 수 있는 Flow가 실험적으로 추가되어 쉽게 설정해서 사용해 볼 수 있고 복잡한 워크플로를 정의해서 사용 가능
- Grafana에서 애플리케이션을 eBPF로 자동 계측할 수 있는 Beyla 프로젝트를 오픈소스로 공개
- 보통 계측하려면 코드에 삽입해야 하므로 관리가 많이 필요한데 eBPF를 써서 자동 계측을 사용하면 쉽게 계측을 추가 가능
- 기본적인 트랜잭션의 스팬과 HTTP/S, gRPC의 RED(Rate-Errors-Duration) 메트릭 획득 가능
- 최근 공개한 OpenTelemetry Collector인 Grafana Alloy에서 eBPF 기반 자동 계측 도구인 Grafana Beyla 사용 가능
- 이 글에서는 Beyla를 사용해서 서비스의 RED 메트릭과 Kubernetes 애플리케이션을 자동 계측해서 Alloy로 수집하는 방법 설명
- Grafana Cloud에 Adaptive Metrics 기능이 추가되어 Grafana Cloud의 모든 티어 사용자가 사용 가능
- 사용하지 않는 메트릭이 많으면 비용도 많아지고 속도도 느려지지만, 사용하지 않는 메트릭 정리는 꽤 귀찮은 작업인데
- Adaptive Metrics는 사용하지 않거나 부분적으로 사용하는 지표를 분석해서 권장 집계를 알려줌
- 150개 환경에서 초기 테스트한 결과 평균적으로 20~50%의 시계열 데이터 감소
- Grfana Cloud에 비용 관리 허브 추가
- 여기서는 누가 로그를 가장 많이 쌓았는지 카디널리티가 낮게 집계할 수 있는 권장 규칙도 제안하고 월별 비용 확인 가능
- 오픈소스는 아니고 그라파나 클라우드의 기능
- Grafana Labs에서 프론트엔드 애플리케이션의 실사용자를 모니터링(RUM)할 수 있는 웹 SDK를 포함한 Grafana Faro를 오픈소스로 공개
- 프론트앤드 애플리케이션에 Grafana Faro SDK를 포함해서 에러, 로그, 성능 메트릭을 수집해서 Grafana에서 확인 가능
- 무료를 포함해서 모든 Grafana Cloud 사용자가 Grafana Incident 사용 가능
- 성능 테스트 도구인 Grafana k6와 Kubernetes의 블루/그린, 카나리 배포를 지원하는 Flagger를 조합해서 카나리 배포에서 트래픽을 받기 전에 k6로 성능 테스트하는 방법
- Grafana를 확장할 수 있는 프론트엔드 라이브러리, Grafana Scenes가 정식 출시
- Scenes를 사용해서 Synthetic Monitoring같은 새로운 기능을 Grafana에 추가할 수 있는 Grafana 앱 작성 가능
- Grafana Labs 내부에서 SLA에 맞게 알림을 설정했지만, 너무 많은 오경보가 생겼고 이를 개선한 과정을 통해 Grafana SLO를 Grafana Cloud에 출시(오픈소스 제품은 아님)
- SLO를 통해 UI에서 SLI를 설정하고 관리 가능
- ActiveCampaign이라는 회사에서 ELK(Elasticsearch, Logstash, Kibana)로 로그 시스템을 운영하다가 비용이 너무 커져서 Loki로 이동
- 프로덕션에 적용할 때는 최적화가 쉽지는 않았지만, 완전히 이전하고 난 뒤에는 이전보다 로그 관련 호스팅 비용을 73% 감소
- Grafana Labs에서 지속적 프로파일링(continuous profiling) 데이터의 백엔드인 Grafana Phlare를 오픈소스로 공개
- Phlare는 애플리케이션의 프로파일 데이터를 수집해서 Grafana에서 조회해서 flame graph로 시각화 가능
- Reliably에서 만든 CLI를 이용해서 SLO를 측정하는 방법 설명
- 간단한 웹서버에서 일부는 오류가 발생하도록 작성하고 Datadog에 APM을 연동해 두고 reliably를 이용해서 Datadog의 매트릭을 가져와서 SLO 보고서를 만드는 방법 설명
- Back End to Front End까지 이어지는 모니터링을 통하여
- (1) 장애의 원인이 인프라 단인지, API 단인지 , 고객 단말 단인지, DB단인지? 에 대한 즉각적인 원인 분석 제공을 통한 빠른 장애 대응
- (2) 기존 산재한 모니터링 툴이 정작 장애시 여러 모니터링툴을 보느라 장애 대응이 느려지는 경우 (인프라는 Cloud watch , APM 스카우터 or 제니퍼, ELK에서 일일히 Log 검색, DB는 멕스게이지 등등)
- (3) 모니터링 비용이 과다하거나 또는 오픈소스 모니터링 운영을 위하여 개발자들이 너무 많은 리소스를 쓰지는 않는지?
- AWS등 퍼블릭 클라우드 전환을 할 때의 모니터링 전략 고민
- (1) On-prem , AWS를 각각 모니터링 해야하는지?
- (2) AWS EKS , ECS 등 컨테이너 모니터링은 어떻게 해야할지
- (3) AWS의 RDS ,Cloudfront, Lambda , Elastic cache , DynamoDB 등등 각각의 서비스 모니터링, CodePipeLine을 어떻게 개별적으로 관리할지? (데이터독은 모두 무상으로 모니터링을 제공 드립니다.)
- Datadog에 등록된 각 서비스의 담당팀, 슬랙, 문서 등의 정보를 관리할 수 있는 서비스 카탈로그의 내용을 업데이트하기 위해서 직접 만든 Datadog Service Catalog Metadata Provider GitHub Actions를 활용하는 방법 설명
- 각 저장소에서 워크플로우를 설정해서 바로 Datadog에 정보를 업데이트 가능
- GitHub의 org 밑에 규칙 파일을 두어
division 태그를 필수로 검사하거나 유효한
division만 사용하게 한다든지 하는 조직적 관리 방법도 같이 설명
- 애플리케이션 가용성 확인을 위해 Go 언어로 만들어진 상태 확인 라이브러리. 클라우드 인프라에서 사용 가능, http.Handler 제공
- Healthchecks.io Cron Job Monitoring - Healthchecks.io
설치항목 - 웹서버: 아파치, 스크립트 언어: PHP, No-SQL: REDIS, No-SQL 클러스터: 루비, 데이터수집데몬: node.js, REDIS 모니터링: RedisLive , 모니터링 데이터 수집: sqlite, 백업 및 감시 스케줄러: crontab
- Grafana가 Continuous Profiling의 시조 프로젝트인 Pyroscope 인수
- Grafana는 Continuous Profiling을 위해 작년에 Phlare를 발표했으나 이번 인수로 두 프로젝트를 Grafana Pyroscope라는 이름으로 통합
- Grafana가 최근에 인수한 Continuous Profiling 회사 서비스 Pyroscope를 이용해서 Go 프로그램의 메모리 릭을 추적하는 과정 설명한 글
- 간단하게 메모리 릭이 있는 Go 프로그램을 작성하고 프로그램에 Pyroscope를 통합시킨 뒤 메모리 추적을 통해 프레임 그래프를 보면서 문제가 되는 부분을 찾음
- ab180에서 애플리케이션 내에서 로그와 메트릭을 수집하기 위해서 비즈니스 로직에 관련 로직이 포함되어 있고 테스트에서 이에 대한 검증도 포함되어 있었는데 최근에 Martin Fowler가 작성한 Domain-Oriented Observability를 사내에 소개하고 이 개념으로 코드를 수정한 과정을 설명한 글
- 기존에 비즈니스 로직과 로깅이 섞여 있었는데 이를 Instrumentation 관련 부분을 캡슐화한 Domain Probe로 분리하는 과정을 예시 코드를 개선하면서 보여주고 이제 로깅이나 메트릭 수정도 쉽게 할 수 있고 비즈니스 로직 파악도 쉽게 변경된 결과를 보여줌
- Grafana Labs에서 300명 이상의 실무자에게 설문 조사를 한 결과
- 중앙 집중화된 옵저버빌리티를 가진 조직의 79%가 시간과 비용 절약
- 70%의 팀은 4가지 이상의 옵저버빌리티 기술 사용
- 사용중이라고 답한 옵저버빌리티의 도구는 62가지
- 응답자 중 61%는 옵저버빌리티의 가장 큰 우려 사항으로 비용이나 예상치 못한 청구서
- 응답자의 98%가 오픈소스 옵저버빌리티 도구 사용중
- 가장 많이 쓰이는 기술은 Grafana, Prometheus, Grafana Loki, OpenTelemetry, ELK
- 옵저버빌리티 서비스를 제공하는 Honeycob에서 프론트엔드를 위한 옵저버빌리티의 얼리 엑세스 프로그램 발표
- Honeycomb OpenTelemetry Web를 사용하면 프론트엔드의 Web Vitals 데이터를 수집할 수 있고 데이터만 수집하기 때문에 비싼 RUM보다 많은 관점 제공 가능
- 애플리케이션의 트레이싱 데이터를 추적할 수 있게 해주는 Open Telemetry에 관해 설명
- OpenTelemetry는 특정 벤더에 의존하지 않고 어떤 언어에서도 사용할 수 있고 스토리지를 선택적으로 사용 가능
- OpenTelemetry를 쓰려면 SDK로 애플리케이션을 인스트루먼트 해야 하는데
- 자동 인스트루먼트(auto-instrumentation)을 사용하면 코드를 거의 수정하지 않고 사용 가능
- 수동 인스트루먼트는 특정 코드를 앱에 추가해야 하므로 더 효과적으로 요구사항에 맞출 수 있음
- 생성된 데이터는 OpenTelemetry 컬렉터에 보내지는데 리시버, 익스포터, 스토리지 등 OpenTelemetry의 기본적인 구성 요소에 관해 알 수 있음
- 카프카를 통해 전달되는 메시지의 테넌트 분리를 설계하기 위한 분들이 참고할 수 있는 전반적인 사항 소개
- Microsoft가 Windows나 Office의 저장소를 Git으로 마이그레이션 했을 때 300GB가 넘었고 역대 가장 큰 규모였기에 성능 개선이 필요했고 Git의 성능을 알 수 있도록 Trace2 기능을 Git에 포함했다. 이 Trace2만으로는 분석하기가 어렵기에 이를 OpenTelemetry로 수집할 수 있도록 오픈소스 수집기인 trace2receiver를 만들었다. 이를 통해 Git 명령어를 사용할 때 시간이 오래 걸리는 부분은 분석 추적해서 파악할 수 있게 되었다
- 오픈 소스 모니터링 시스템인 Prometheus에 HBase 메트릭을 연결하는 방법
- 새로운 운영 모드인 Agent 설명
- Prometheus는 Pull 방식으로 메트릭을 수집하는데 설계는 달라지지 않았지만 클라우드 네이티브가 발전하면서 클러스터 자체를 Pet이 아니라 Cattle로 취급 가능하게 됨(구분하지 않는다는 의미)
- 엣지 네트워크의 발전으로 작은 클러스터가 사방에 퍼지게 되어 글로벌 수준으로 매트릭을 수집해서 보여주어야 하게 되었는데 이를 Global-View라고 부른다
- Global-View를 위해 원격 네트워크를 통해 스크래핑하거나 애플리케이션에서 바로 Push하는 것은 나쁜 접근. 둘 다 신뢰하기 어렵고 많은 문제 발생 가능
- Prometheus는 글로벌뷰를 위해 3가지 접근 지원: Federation, Remote Read, Remote Write
- Remote Write
- Prometheus가 수집한 매트릭을 원격으로 포워딩하는 프로토콜. 이를 통해 글로벌뷰의 매트릭을 중앙에 저장 가능, 관심사도 분리
- 앞에서 Push 방식은 나쁘다고 하지 않았는가? Remote Write의 놀라운 점은 애플리케이션에서 매트릭을 수집할 때는 여전히 Pull 방식 사용
- 다음 릴리스인 Prometheus v2.32.0에 실험적인 --enable-feature=agent 플래그가 추가되고 에이전트 모드는 remote write에 맞게 Prometheus를 최적화
- 에이전트 모드는 write가 성공하면 데이터를 즉시 지우기 때문에 효율적이고 ingestion의 수평적 확장 용이
- 에이전트 모드로 Prometheus 기반 스크래핑의 자동확장 기능을 쉽게 적용 가능
- DoorDash에서 옵저버빌리티 도구로 StatsD를 사용
- 트래픽이 폭증할 때 같이 장애가 나서 정작 필요할 때 사용할 수가 없었기 때문에 Prometheus 기반 모니터링으로 마이그레이션
- StatsD는 Etsy에서 개발한 네트워크 데몬
- 메트릭 손실 가능성이 있고 메트릭 이름 표준화가 어렵고 히스토그램 기능이 없어 백분위수 집계가 어려워서 메트릭의 가치를 전체적으로 하락
- 새로운 솔루션의 요구사항
- 오픈 소스를 이용해서 관리 효율성 향상
- 표준 이름과 태그로 거버넌스 향상
- 마이그레이션을 원활하게 하려고 셀프서비스로 자동화 가능 필요
- 마이그레이션은 인프라팀이 먼저 모니터링을 새로운 시스템으로 마이그레이션
- 서비스팀에서 Prometheus 계측과 라이브러리로 엔드포인트를 변경하는 단계로 진행
- 프로메테우스를 쿠버네티스 모니터링으로 많이 사용
- 모니터링 지표의 평상시와 다른 변화를 조금 더 쉽게 확인하는 게 필요하고, 프로메테우스를 사용한다면, 빠르게 접근해 볼 수 있는 방법 공유
- PromQL과3-Sigma(Z-Score)를 활용한 간단한 이상감지
- 기본 접근방법은 3-Sigma(대략 "정상"은 3 표준편차이내)
Z-Score = (x-μ) / σ
- 예를 들어 node_disk_writes_completed_total 라는 메트릭이 있을때
μ = avg_over_time(node_disk_writes_completed_total{}[1h]))
σ = stddev_over_time(node_disk_writes_completed_total{}[1h])
x = avg_over_time(node_disk_writes_completed_total{}[$__rate_interval]
- Z-Score 쿼리
abs(((avg_over_time(node_disk_writes_completed_total{}[$__rate_interval]) - (avg_over_time(node_disk_writes_completed_total{}[1h])))) / (stddev_over_time(node_disk_writes_completed_total{}[1h])))
- 기존 node_disk_writes_completed_total에 위 Z-Score를 함께 표시하고 Z-Score가 3이 넘는 경우를 "이상"으로 확인
- Anomaly 그래프에서 흔히 보는 Upper/Lower Band는
- Upper Band 쿼리
avg_over_time(node_disk_writes_completed_total{}[1h]) + (3 * stddev_over_time(node_disk_writes_completed_total{}[1h]))
- Lower Band 쿼리
avg_over_time(node_disk_writes_completed_total{}[1h]) + (-3 * stddev_over_time(node_disk_writes_completed_total{}[1h]))
- Upper Band 쿼리
- 간단하게(눈이 아닌 통계로) 이상을 확인하는 것이 가능, 하지만 풀어야할 숙제도 있음
- 스파이크가 발생하면 밴드가 크게 흔들림
- 바라보는 시간 간격에 따라 오탐이 잦을 수도, 또는 없을 수도 있음
- 계획된 작업 또는 계절적인 지표 변화는 별도 처리가 필요
- 실무에 바로 사용하기에는 부족하지만, 쿼리와 통계만으로 추가 시스템 없이 기존 그래프에 더해 볼 수 있는 방법
- 위 접근에 보완이 필요한 내용들은 PromCon에서도 소개
- Prometheus의 원격 쓰기 명세의 2.0 릴리스 후보
- 1.0은 아주 유용했지만
- 네트워크 대역폭 사용이 효율적이지 않았고 메타데이터, examplars, 네이티브 히스토그램, 타임스탬프 등 최신 Prometheus 기능 미지원
- 또한, 읽기와 쓰기의 프로토콜이 통합되어 있었는데 이는 큰 의미가 없었고
- 압축이나 content negotiation 메커니즘도 불포함
- 2.0에서는
- Protobuf 사용, 메시지는 binary Wire 형식, Google Snappy로 압축 필요
- 1.0 때 gRPC를 사용하지 않았기 때문에 도입이 용이하도록 이번에도 gRPC 미사용
- Prometheus와 Vitoria Metrics 성능 비교
- Prometheus는 압축할 때 active time series를 메모리에 저장하지만, Vitoria Metrics는 VM insert 스토리지에 저장
- 이런 설계의 차이는 성능에도 영향
- active time series, 수집률, 수집 대상의 수를 부하 테스트를 하면서 프로덕션에 운영하는 정도의 매트릭으로 둘을 비교
- 부하가 커지면 Prometheus는 메모리가 Vitoria Metrics는 CPU가 커지는 특징, Vitoria Metrics에 최적화한 뒤에는 전체적으로 Vitoria Metrics 리소스 사용이 훨씬 적은 것으로 확인
- 네이버 검색 SRE의 시계열 데이터베이스 운영기 - VictoriaMetrics로 수천만 개의 시계열 데이터 다루기