Wiederholungen benötigen Backoff, Jitter und ein klares Budget_
Wiederholungen verbessern die Resilienz nur, wenn sie die Last verteilen und zur richtigen Zeit stoppen. Ohne Backoff und Jitter können sie einen transienten Fehler in einen breiteren Ausfall verwandeln.
Wiederholungen sind eines der einfachsten Resilienzmerkmale, die leicht falsch implementiert werden können, da sie auf kleinerer Skala harmlos erscheinen.
Ein einzelner Dienst, der eine fehlgeschlagene Anfrage wiederholt, ist kein Problem. Zehntausend Instanzen, die nach demselben Zeitplan wiederholen, oft schon.
Hier verwandelt sich die Wiederholungslogik von einem Wiederherstellungsmechanismus in einen Lastverstärker.
Alle Aufrufer scheitern gleichzeitig. Alle Aufrufer schlafen dieselbe Zeit. Alle Aufrufer wachen gleichzeitig auf und attackieren die Abhängigkeit erneut.