(... y noSQL)
-
Heartbeat & GC
- Stop the world implica no ❤️
- 👍 G1GC (aunque a veces no alcanza)
-
Espacio libre en disco
- 👎 Mongo y Cassandra
-
👎 Discos de red
- Picos de latencia & IO Queue
- A menos que tenga enlace dedicado
-
Perdida de un nodo y replicación
- O cómo la solución puede ser peor que el problema....
-
Backup: no hay
- Otro cluster....
-
Monitoreo fino
- 👎 Munnin y Nagios actualizan cada varios minutos
- 👎 La mayoría de estos bichos generan demasiadas métricas
- Herramientas básicas:
- Linux Performance Tools
- Linux Performance Analysis in 60,000 Milliseconds
- Broken Linux Performance Tools: video slices
- 👍 Anda: Jepsen certified: https://aphyr.com/posts/291-jepsen-zookeeper
- 👎 Api muy de bajo nivel, usar 👍 Curator
- Configuración global a múltiples nodos, consistente.
- Lider elecction/lock soft (correr un batch una sola vez)
- 👎 NO usar para lock intensivo
- ProTip: usar
chroot
- 👍 Fácil ver situación: 4 letters commands
- Tenes que poner las ips/nombres fijas en las config de los nodos: Clustered (Multi-Server) Setup
- 👎 Cambiar un node es un dolor de huevos:
- Cambiar los nodos
- Si aplica, cambiar el dns
- Reiniciar TODOS los clientes (el cliente de ZQ se cachea las ips)
- 👎 Complejo de instalar y mantener
- 👍 Al menos usar una distro