#240 Dead Man's Switch für dein Alerting

00:00

[SPEAKER_00]: Willkommen zum Engineering-Kiosk-Advent-Kalender oder für unsere deutschen Hörerinnen Advenz-Kalender, so viel Zeit muss hier noch sein. [SPEAKER_00]: Von mir dieser ruhigen Advenzzeit haben wir Zeit für Wissen, sinnvolles, aber auch weniger sinnvolles. [SPEAKER_00]: Und was sich an die Fettiesdürchen ausgedacht hat, mit welchen Wissen er zum die erkebigen wird, das härt ihr gleich. [SPEAKER_00]: Also zurücklehnen, lausche auf und los geht's.

00:27

[SPEAKER_01]: Die meisten von uns aber in an irgendeiner Art von Applikation und hoffentlich läuft Deiner Applikation und macht eigentlich auch das, was es tun soll und das ist ein ziemlich gutes Gefühl. [SPEAKER_01]: Doch woher weiß du denn das nur genau, woher weiß du genau, dass deine App genau das tut, was es soll. [SPEAKER_01]: Wahrscheinlich warst du gerade mal drauf und hast die App benutzt geil.

00:47

[SPEAKER_01]: Man geht es schlafen, doch woher weiß du denn am nächsten Morgen das ist genau das tut, was es tun soll. [SPEAKER_01]: Wahrscheinlich hast du dann ein Monitoring System, Monitoring ist wichtig, wirst du mir irgendwie alle. [SPEAKER_01]: Und wenn man richtig gut ist im Bereich Hochverfügbarkeit und keine Backsat bekommen auch keine Allöhrs oder bzw. [SPEAKER_01]: Notifikations. [SPEAKER_01]: Das ist ein richtig gutes Gefühl.

01:06

[SPEAKER_01]: Doch zu welchem Zeitpunkt weiß ich eigentlich, dass meine App eigentlich super stabil ist oder einfach nur das Monitoring System kaputt ist. [SPEAKER_01]: Denn wenn das Monitoring System kaputt ist, dann ist man blind und dann könnte man auch sagen, ich glaube, meine App funktioniert. [SPEAKER_01]: Also, ist die Kernfrage, wer überwacht eigentlich den Überwacher oder auf Englisch Who is watching the washer?

01:26

[SPEAKER_01]: Also, ist die Kernfrage, wer überwacht eigentlich das Monitoring System, dass das Monitoring System selbst nicht ausfällt? [SPEAKER_01]: Wer überwacht die Überwacher? [SPEAKER_01]: Who is watching the washer? [SPEAKER_01]: Das ist eine klassische Frage, die viele Ops, Death Hopps und SAE Teams plaggt. [SPEAKER_01]: Was ist ein Datman-Switch? [SPEAKER_01]: Ein Datman-Switch ist ein Konzept, das verhindert, wenn man blind wird, wenn der Wächter einschleift.

01:52

[SPEAKER_01]: Also eigentlich ein unabhängiger Wächter Michael Nismus, der das Monitoring System selbst überwacht. [SPEAKER_01]: Manche Leute kennen das auch unter Todmann, Schalter, Todmann, Einrichtungen, Bewegungslos, Mäler oder Todmann-Warner. [SPEAKER_01]: Die ganze Sache ist kein neues Konzeptbeziehungsweise kommt nicht aus der IT, sondern eher aus der Technik und Ingenürsfeld.

02:11

[SPEAKER_01]: Da ist es eher ein Schalter oder ein Mechanismus, der automatische Anaktion auslöst, wenn eine Person ausfällt. [SPEAKER_01]: Beziehungsweise es überprüft, ob ein Mensch anwesen und Handlungsfähig ist und löst anmerfalls ein Signal oder eine Schalterhandlung aus. [SPEAKER_01]: Das hat dir vielleicht schon mal gesehen, wenn die in die Bahn eingestiegen seid. [SPEAKER_01]: Die Lockführer müssen da in der Regel regelmäßig ein Pedal oder ein Handtaster gedurgt halten.

02:34

[SPEAKER_01]: Denn wenn der Fahrer dieses Pedal oder ein Handtaster loslässt, z.B. [SPEAKER_01]: wenn er unmichtig wird, bremst der Zug automatisch. [SPEAKER_01]: Nähliches Konzept gibt es bei Baumaschinen, wie bei Bagger und Rasumer, da müsst ihr in der Regel als bedienen Hebel oder ein Griff gedrückt halten, denn wenn der losgelassen wird die Maschine sofort, halt um Unfälle zu vermeiden.

02:52

[SPEAKER_01]: Zumindest das hab ich einen Menzinen Rasumer, wenn man nicht so schiebt, da muss ich immer so einen Haken festhalten und welche in loslase hört er halt sofort auf. [SPEAKER_01]: Bei Schiffen und Motorboten gibt es eine sogenannte Notausleine, da trägt der Fahrer eine Leine, die dann so mehr oder weniger mit dem Motor verbunden ist und wenn er dann über Bord fällt, geht der Motor sofort aus, dass das Motor nicht weiterfährt.

03:12

[SPEAKER_01]: Die Feuerwehr hat ein ähnliches Konzept oft habend ziemlich viele Feuerwehrmänner, so ein Bewegungsmäler, eine ihre Ausrüstung. [SPEAKER_01]: Und wenn man sich nicht bewegt reagiert das Gerät, dann muss man das einmal mal nur er bestätigen. [SPEAKER_01]: Das nennt man auch Queterung des Vorarlarms und wenn man sich halt länger nicht bewegt und diesen Vorarlarm nicht quittiert, dann geht der Todmanchalter halt los, weil du dich halt nicht mehr bewegst.

03:34

[SPEAKER_01]: Das Militär macht ein anderes System oder Auskonzept, nennt sich in der Regel so hartbiet. [SPEAKER_01]: Da passiert so man meldet sich immer wieder bei der zentralen, ein bestimmten Interval. [SPEAKER_01]: Aber da komme ich gleich noch drauf. [SPEAKER_01]: Im Endeffekt dieser Datman switch oder totmannschalter, dient der Arbeit Sicherheit an Einzelarbeitsplätzen oder an gefährlichen Maschinen.

03:53

[SPEAKER_01]: Die ganze Sache ist nicht neu, habe ich in die Zahl erwähnt, der Begriff taucht 1910, das erste Mal auf und nur so 22 in einer Patentschrift. [SPEAKER_01]: Im zweiten Weltkrieg wurde der Begriff dann in den USA auch in einem Handbuch der US Luftstreitkräfte von 1940 gefunden, dort beschrieb ein Abwehrstandschalter, explitit als Datmansfitsch. [SPEAKER_01]: Leider ging es im Zweiten Welt dann wirklich, um totem Menschen.

04:17

[SPEAKER_01]: Die Worte herkunft ist auch ganz interessant und zwar im englischsprachlichen Technikraum sprach man früher eher von einer Hold to Run device, nach ihr ändert euch, wo es ein Schalter drücken, um die Bahn zu fahren, Hold to Run device, vermutlich wurde der Todmann Schalter bzw. [SPEAKER_01]: auf Englisch-Statmans witscht dann durch deutsche Ingeneuere bzw. [SPEAKER_01]: deutsche Schriften vermittelt und dann nicht da mal eingeängelt ist.

04:40

[SPEAKER_01]: Naja, zurück zur Monitorung, zurück zur Technizut, zur Softwareentwicklung. [SPEAKER_01]: Was heißt das jetzt eigentlich für es Monitoring? [SPEAKER_01]: So lange das Monitoring System lebt, sendet es regelmäßig ein Lebenszeichen. [SPEAKER_01]: So ähnlich wie bei der Feuerwehr, Hardbeats. [SPEAKER_01]: Wenn diese Gnale ausbleiben, schlägt er datmanzwitsch erlamm.

04:57

[SPEAKER_01]: Man kärt also die eigentliche Logikum, nicht das Auslösen eines sie genaals erzeugt den Alarm, sondern das Ausbleiben des sie genaalslöst den Alarm aus. [SPEAKER_01]: Wir halten nicht kontinuierlich was gedrückt, sondern wir senden kontinuierlich ein Hartbiet.

05:13

[SPEAKER_01]: Hartbiet selbst finden auch eigentlich Anwendungen in der Hochverfügbarkeit beispielsweise wenn nun Datenbankklasse hast, die Klasse sind in der Regel Hartbiet zu einander und zu sagen, ich bin doch da und hat ja gerade schon mal erwähnt, im blieterischen Bereich, wie die ganze [SPEAKER_01]: Wie implementiert man jetzt einen solchen Datmenswitch, also wie überwacht man den Überwacher?

05:33

[SPEAKER_01]: Dazu mache ich ein ganz kurzen Exkurs, wie ist eigentlich ein Monitoring System aufgebaut? [SPEAKER_01]: In der Regel hat ein Monitoring System zwei Komponenten. [SPEAKER_01]: Auf der einen Seite hast du irgendetwas, was deine Applikation überwacht? [SPEAKER_01]: Der Fracht, deine Applikation, die hat seit Annen Hey, Lebst du noch und wie geht's dir denn?

05:50

[SPEAKER_01]: Was hast du für eine CPEU und so weiter und diese da, [SPEAKER_01]: In dieser Komponente definiert man oft auch Regeln, wie z.B. [SPEAKER_01]: wenn die CPU über 60 Prozent für ein Interval von 5 Minuten ist dann Sende mal eine Notifikation.

06:09

[SPEAKER_01]: Eine zweite Komponente ist dann meist die Allöhrting-Komponente, dieser Allöhrting-Komponente nimmt dann in der Regel das Result hat, einer solchen Regeln, diese CPU-Regeln von der ich gerade beschwochen hat, wenn gegen und Sende diese dann an dein Handy, SMS ruf dich an, [SPEAKER_01]: Natürlich müssen das nicht zwei getrennte Komponenten sein, das entspricht doch jedoch eigentlich dem generellen Aufbau, kann auch alles in einer Komponenten sein.

06:34

[SPEAKER_01]: Wenn man das jetzt mal auf Cloud Native Infrastruktur übertragen würde, würde man sagen, okay, du hast ein Prometheus, der überwacht deine Applikation nimmt sich die ganzen Metriken, speichert die in der Zeitrein der Anbarung und führt auch diese Regeln aus.

06:46

[SPEAKER_01]: Wenn meine CPU für einen Zeitinterweil von fünf Minuten über 60 Prozent ist und so weiter, [SPEAKER_01]: Und wenn das der Fall ist, dann sagt man, okay, sende da eine Notifikation und diese Notifikation würde man dann zum Beispiel alleine eine Leute, wenn ich ja sind. [SPEAKER_01]: So baut man zum Beispiel ein Monitoring-System auf kann es natürlich auch alles implementieren, Nagios und Zingler und Wiese aller heißen können das aber auch alles.

07:09

[SPEAKER_01]: Komm mir mal zu der Implementierung eines Statements Switches. [SPEAKER_01]: Hat ich gerade schon kurz erwähnt, wer wenn das Heartbeat prinzipern? [SPEAKER_01]: Wir implementieren also eine Regel, die immer zu ist. [SPEAKER_01]: Das bedeutet, wir implementieren einen Allert der immer Feuert. [SPEAKER_01]: Der Allarm muss immer laufen. [SPEAKER_01]: Wie zum Beispiel Null ist gleich Null.

07:29

[SPEAKER_01]: Ja, sowas kann man zum Beispiel in einer Allertingregel definieren und die Feuert halt immer die Feuert konzentrieren. [SPEAKER_01]: Diese Allertingregel nennt man Watchdog Allertregel. [SPEAKER_01]: Das Alertingsystem nimmt dann das Result hat und sagt, ah, okay, ich muss jetzt irgendwie informieren zum Beispiel Slack oder ähnliches. [SPEAKER_01]: Und das Alertingsystem leitet diesen Alert, dann weiter, diesen Hartbiet, dann weiter.

07:50

[SPEAKER_01]: Am besten an allen Unabhängen gestellt, warum, sag ich euch gleich. [SPEAKER_01]: Die Dritte unabhängige Stelle, sagt dann, okay, ich muss immer ein Signal von meinem Alløydmanager bekommen und wenn ich die Dritte unabhängige Stelle nimmt dann dieses hartbiedsignal entgegen und sagt, okay, einmal pro Minute muss ich ja ein hartbiedsignal bekommen und wenn ich das für dreimal in Folge nicht bekommen, dann löse ich ein Signal aus.

08:15

[SPEAKER_01]: Die ganze Sache klingt unglaublich simpel, doch wie es meist so mit einfachen Dingen ist ist es doch deutlich schwieriger als gedacht. [SPEAKER_01]: Fangen wir man an. [SPEAKER_01]: Und ich hatte ja gerade gesagt, eine dritte Unabhängen gestellte sollte auch dabei sein. [SPEAKER_01]: Und da kommen wir mal zu dem ersten Fehler, der aufgemacht wird. [SPEAKER_01]: Wohin geht in deiner Hartbiet benachitigung?

08:35

[SPEAKER_01]: Ich hatte ja gerade gesagt, du hast ein System, was deine App überwacht? [SPEAKER_01]: Das evaluiert dieser Allöting-Regel. [SPEAKER_01]: Sende, dass an uns Allötsystem weiter und das Allötsystem muss es dann an eine dritte Stelle weiterleiden. [SPEAKER_01]: Wenn die dritte Stelle eine selbstgeschriebene Komponente ist, die auf dem selben Server wieder ein Allötingsteck läuft, schwierig.

08:53

[SPEAKER_01]: Denn was passiert, wenn der Server von einem Allötingsteck runterfällt, dann funktioniert auch dein Hardbietsystem nicht mehr. [SPEAKER_01]: Am besten ist es, wenn du das Hardbiet Signal aus deiner eigenen Infrastruktur rausruht ist, [SPEAKER_01]: Auf einen anderen Infrastruktursteck. [SPEAKER_01]: Das kann zum Beispiel, wenn du jetzt auf Google Cloud Hostes kann das sein, dass du eine Server bei Erdogan oder bei Hetzen hast.

09:15

[SPEAKER_01]: Eine gute Anwendung aus ist auch irgendein Software-Assasservice. [SPEAKER_01]: Wie zum Beispiel, Pager-Duty, es gibt so etwas wie Datman's Snitch. [SPEAKER_01]: Das ist speziell ein Service für sowas oder Obstgenie. [SPEAKER_01]: über Hardbeat.

09:27

[SPEAKER_01]: Du kannst es natürlich auch alles selbst bauen, in den Showrooms habe ich dir mal zum Beispiel in Hack-On-News, Zread, verlinkt, how to do simple Hardbeat Monitoring mit 82 Kommentaren, die Leute sind oft sehr kreativ, wo dir doch da mal ein bisschen Inspiration.

09:41

[SPEAKER_01]: Warum ist es jetzt wichtig, dass diese Hardbeat-Komponenten, diese Komponenten, diese Hardbeat überwacht, außerhalb deiner Infrastruktur ist, die Sonne natürlich auch funktionieren, wenn all deine Hauptsysteme da uns sind. [SPEAKER_01]: In Koppelie so weit wie möglich legt die Bitte auch nicht auf ein Server daneben oder in andere Srak oder wo auch immer Pax wirklich komplett woanders hin am besten was wirklich 1% unabhängig von deiner Infrastruktur ist.

10:06

[SPEAKER_01]: Ein zweiter häufiger Fehler ist, was macht man eigentlich, wenn der Deadman switch triggert? [SPEAKER_01]: Was passiert eigentlich, wenn das Heartbeat Monitoring System sagt, hey, Jung, dein Monitoring ist tot. [SPEAKER_01]: denn dieser Alarm selbst enthält halt sehr wenig Details und jetzt bin ich unkoll und auf einmal krieg ich einen ganzen neuen Alarm, den habe ich noch nie gesehen, dann allötingsystem ist da.

10:28

[SPEAKER_01]: Da stelle ich mir das für die Frage, oh fuck, was mache ich denn jetzt? [SPEAKER_01]: Also am besten definieren wir ein Runbook oder setzer ein Link in diesen Allöhrt, der zu einem Runbook führt, am besten auf eine Wikisite oder ähnliches, wo dort dann ein paar Instruktionen stehen, wie man denn prüft, ob dein Allötingsystem online ist, welche [SPEAKER_01]: Und weiterer Fehler der sehr sehr aufgemacht wird sind falsche Intervalle und falsches Timing.

10:53

[SPEAKER_01]: Denn ihr könnt euch vorstellen, die Wahl des Hartbiet Intervall spielen eine große Rolle. [SPEAKER_01]: Wenn ihr sagt, ihr sendet nur alle 5 oder 10 Minuten einen Hartbiet, dann könnte sein, dass ihr wieder Rulugszeitraum zu lang ist und man bemerkt ein Ausfall eventuell erst zu spät. [SPEAKER_01]: Wenn ihr das sagt zum Beispiel, sende ein Hartbiet alle 5 Minuten und ihr konfiguriert das Hartbiet Kontrollsystem, okay?

11:15

[SPEAKER_01]: 4 Hartbieds müssen ausfallen, damit ich in Allerz sind, dann bekommt die erst nach 20 Minuten mit das Räuerlöttingsystem dauern es.

11:22

[SPEAKER_01]: Kann man machen, dann hat man sehr wahrscheinlich wenig Fault-Positives, wählt man den Interval aber zu kurz, wie zum Beispiel alle 10 Sekunden oder alle 5 Sekunden, dann könnten natürlich auch kleinste Hick-Abs, wie zum Beispiel man Netwerk-Blipp oder irgendwie [SPEAKER_01]: Meine Empfehlung ist, stimmt eure Intervalle und die Toleranz auf eure gewütste Reaktionszeiten.

11:47

[SPEAKER_01]: Also wann müsst ihr am Rechner sein, wann müsst ihr nachdem ihr ein Alleuert bekommen habt, am Rechner sein und reagieren können? [SPEAKER_01]: Die genauen Einstellungen hängen natürlich dann von euren eigenen SLO-Ziele-Setzungen ab. [SPEAKER_01]: Generell würde man sagen, je kritisch, dass Monitoring des so schneller möchte man ausfälle wissen oder überausfälle informiert werden.

12:06

[SPEAKER_01]: Und guter Punkt ist, glaube ich so, wenn man sagt so, okay, wenn fünf Minuten kein Ping da ist, wenn in den letzten fünf Minuten kein Hardbied kam, dann sende ich mal in Deadman Switch all hört, damit könnt ihr mal kurz starten. [SPEAKER_01]: Dann, ein weiterer Fehler, der aufgemacht wird, ist ein Konfigurationsfieler. [SPEAKER_01]: Manche Allöhting-Systeme, die senden den Allöht einmal und dann nie wieder.

12:28

[SPEAKER_01]: Das ist natürlich jetzt in diesem Konzept viel am Platz, denn euer Allöhrt ist ja in diesem Fall jetzt ein Hartbiet. [SPEAKER_01]: Das bedeutet, hier müssen diesen Allöhrt kontinuierlich sein. [SPEAKER_01]: Ein Hartbiet ist nur wirksam, wenn er wirklich kontinuierlich gesendet wird. [SPEAKER_01]: Zum Beispiel immer Lördmenager würde man da den Rupied hinterwahl setzen und wirklich testet das. [SPEAKER_01]: Testet die Konfiguration.

12:50

[SPEAKER_01]: Startet denen, Alördmenager einmal neu oder deaktiviert einmal die Hardbiete Rute temporär. [SPEAKER_01]: Damit dieser Datman Switch auch wirklich geträger wird. [SPEAKER_01]: Wenn ihr das nicht getestet habt, ist es für mich nicht existent. [SPEAKER_01]: Und ich hoffe, für euer Team auch nicht. [SPEAKER_01]: Und eine weitere Fehlerquelle über die viele Teams renden. [SPEAKER_01]: Stell euch vor, ihr habt 20 Überwachungssysteme.

13:10

[SPEAKER_01]: Ihr habt 20 Apps, vielleicht eine kleine Microsoft-Servis-Infaschruktur. [SPEAKER_01]: Für jede dieser Microsoft-Servis-App habt ihr ein eigenes Überwachungssystem. [SPEAKER_01]: Das bedeutet auch, ihr habt 20 Systeme, die unabhängig ein Harbied sind. [SPEAKER_01]: Und was passiert jetzt? [SPEAKER_01]: Wenn ihr einen Single-Pront-Affail habt und ihr habt nur eine allörtigen Komponente. [SPEAKER_01]: Das bedeutet, ihr habt 20 Überwachungsskomponente, 20 Prometheus.

13:30

[SPEAKER_01]: Aber nur ein allörtmanager, der dafür zuständig ist, die Nachrichten weiterzuleihen. [SPEAKER_01]: Wenn dann der erlörtmanager down ist, wollt ihr dann 20 mal, harbietfailias bekommen, also 20 mal, datmanzfitschallels oder wollt ihr eine catch all haben und sagt, ah das allörtmanager ist down, jetzt muss ich reagieren, obwohl die 20 haben. [SPEAKER_01]: Das ist eine Frage, die euch auch stellen müsst. [SPEAKER_01]: Die Lösung wäre ihr könnt ein Catch all hardbeatallört definieren.

13:56

[SPEAKER_01]: Der sagt zwar dann mit dem Monitoring ist etwas nicht in Ordnung. [SPEAKER_01]: Und der ist viel, viel generell, also ihr habt Informationsvolus. [SPEAKER_01]: Dafür bekommt ihr aber halt keine 20 Datmenswitchallört, sondern nur einen. [SPEAKER_01]: Ist halt so ein Art Trade-Off den ihr entscheiden müsst. [SPEAKER_01]: Wenn ihr aber jetzt mal so ein Datmans-Fitsch implementiert habt, gibt es noch zwei bessere Präktisses. [SPEAKER_01]: Macht regelmäßige Tests und Drills.

14:19

[SPEAKER_01]: Also wirklich jeden Monat oder jedes Quartal. [SPEAKER_01]: Lass den Datmans-Fitsch alle immer triggern, entweder in dem ihr das Allersystem einmal aufleinnehmt, für ein gewissen Zeitinterweil oder ihr Dialektiviert die Hardby-Datmans-Fitsch Route. [SPEAKER_01]: Testet ist, denn ihr werdet an dem Allersystem arbeiten und da werden sich auch weitere Backs einschleichen und sogenannte Regression, das belötet Backs die ihr mal gefixt habt, werden wieder intradiust.

14:43

[SPEAKER_01]: Testet ist. [SPEAKER_01]: Weil nur wenn ihr das regelmäßig testet, könnt ihr wirklich die Serie sein, dass die ganze Sache funktioniert. [SPEAKER_01]: Eine andere thematik ist auch die Optimierung über die Historie. [SPEAKER_01]: Schaut euch mal an, wie oft da eigentlich mal so ein hartbiet Fehler bekommen habt oder so ein Datmenschwitz, alle oder wann, die man außerhalb der Toleranzlagen da könnt ihr so ein bisschen die Konfigurationen oder hartbietinterwelle anpassen.

15:06

[SPEAKER_01]: Und natürlich aber auch über einen Audit Trail falls Sie mal ein größeren Ausfall hat, wie es ja auch okay, da wurde dann auch wirklich in Datman Switch ausgelistet. [SPEAKER_01]: Also schaut zu, dass euer Hartbiet Kontrollsystem auch irgendwo Art Historia habt. [SPEAKER_01]: Jetzt habe ich schon ziemlich viel über diese Simple aber doch komplizierte Lösung gesprochen und das stellt sich natürlich die Frage, gibt es da nichts Einfaches.

15:26

[SPEAKER_01]: Kann ich nicht einfach ein zweites Monitoringsystem aufsetzen, was das erste Monitoringsystem bewacht? [SPEAKER_01]: Die Antwort ist klar, kannst du, aber die erste Frage war, wer überwacht den Überwacher? [SPEAKER_01]: Und wenn du diese jetzt mit, ja, mein zweites Monitoringsystem beantwortest, dann schält dich für mich die Frage, wer überwacht den Überwacher des Überwachers?

15:48

[SPEAKER_01]: Es ist halt ein Infinity-Loop-Problem, dass ich halt nicht wirklich elegant lösen lässt, weil es halt eine Endlosgeschackelte Monitoring-Lösung wäre.

15:56

[SPEAKER_01]: Kannst du schon so machen, so sagt es, okay, wenn das eine Monitoring ist, hämst du sich mit dem anderen überwacht, ja das reicht für mich. Das ist völlig okay, aber wenn du es richtig lösen möchte, das müsstest du halt eine Endlos-Rekosition weil du den Überwacher das Überwachers überwachen müsstest, um zu weiter uns erfohren.

16:09

[SPEAKER_01]: Ein Datmenswitz durch Briechtheit diesen Treufelskreis, indem er das fehlend von Signale nutzt, halt um Erlaub zu schlagen, statt immer neue Überwachungsysteme in aller Kascada aufzubauen. [SPEAKER_01]: Eine andere Alternative Lösung, die halt oft genannt wird, sind sogenannte EscalationDrails. [SPEAKER_01]: EscalationDrails sind zum Beispiel, dass das Monitoring jeden Tag ein Alarm in ein Chat oder auf dein Mobiltelefon sind.

16:33

[SPEAKER_01]: Also sozusagen geplant hat Test-Alarm der halt regelmäßig ausgelöst wird und der Sinn ist auch klar. [SPEAKER_01]: Du willst die Erlarmkette prüfen, quasi in Probe-Alarm fürs Unkultim. [SPEAKER_01]: Kann man auch zusätzlich machen, ist vielleicht eine gute Sache, aber wenn du das als Ersatzfühnen-Datmans-Witschen nutzen würdest, dann führt es halt über eine gewisse Zeit vielleicht zu einer Allöhrting-Vertiege.

16:54

[SPEAKER_01]: Stellt euch vor, jeden Morgen kommt ein Test-Alarm in den Chat. [SPEAKER_01]: In den ersten Wochen oder in ersten zwei Wochen schaut dann noch jeder drauf. [SPEAKER_01]: Aber irgendwann sagt man, ah okay, das gräubmein einfach drüber, nach der in der dritten oder vierten Woche. [SPEAKER_01]: Und was passiert ist, wenn das Allöhrtingsystem daun ist? [SPEAKER_01]: Dann kommt der Schädallört nicht mehr.

17:13

[SPEAKER_01]: Und jetzt kommt es auf uns Menschen an, zu wissen, am Moment, jeden Morgen sollte hier nicht, gerade Schädallört sein. [SPEAKER_01]: Und vielleicht war gerade Zeitaufstellung und denke, ja, ja, mit der kommt erst vielleicht in der Stunde. [SPEAKER_01]: In der Stunde seid ihr schon wieder ganz tief in irgendeinem Problem und habt ihr es wieder vergessen.

17:27

[SPEAKER_01]: Die zweite Problem ist natürlich, wenn das nur einmal pro Tag kommt oder vielleicht auch einmal pro Woche je nach dem, was ihr für Zeit hinterwahl habt, dann ist das natürlich nur ein Moment aufladen. [SPEAKER_01]: Stell dir vor, nachdem Eskalation Drill nach dem Test aller nach dem Proberlam fällt das Erleutingssystem aus. [SPEAKER_01]: Dann ist das Erleutingssystem so lang ausgefallen, bis zum nächsten Eskalation Drill bis das man immer im Aufbild.

17:47

[SPEAKER_01]: Und eskalationdrill beantwortet, also die Frage erreicht einen Alarm grundsätzlich die richtigen Leute. [SPEAKER_01]: Aber sie beantwortet nicht die Frage, ist das Monitoring jetzt gerade noch enttakt.

17:57

[SPEAKER_01]: Meine Sache ist nach den Eskalationdrill eine gute Ergänzeneübung, z.B. [SPEAKER_01]: einige Teams nutzen, dass auch um ein Eskalationdrill auf das Mobiltelefon des Oncol Engineers zu senden, wenn die Oncol Schicht beginnt, damit kann man am Mathesten, ist das Handy lautgestellt und so weiter und so vor. [SPEAKER_01]: Das löst natürlich, die nicht alle Probleme ist es aber besser als nicht. [SPEAKER_01]: Zurück zum datmanzwitsch.

18:17

[SPEAKER_01]: Also, der datmanzwitsch ist kein aller Heilmittel, aber ein wichtiger Bauste. [SPEAKER_01]: Also, datmanzwitsch löst nicht alle Probleme zum Beispiel wird der Monitoringausfall an sich nicht verhindert, er verhindert aber, dass du ihn nicht mitbekommenst. [SPEAKER_01]: Also, ein datmanzwitsch ist ein wichtiger Bestandteil der robusten Überwachung.

18:34

[SPEAKER_01]: Wenn du diese Episode hörst, macht doch mal ein Eskalation Rö, Trigger doch mal dein datmanzwitsch, schaut doch mal ob der noch funktioniert, wie er funktionieren soll. [SPEAKER_00]: Und jetzt hoffe ich, dass der Monitor- und System bei die Feiertage ruhig bleibt und wünsche den Vorbeinacht. [SPEAKER_00]: Bis später.

19:06

[SPEAKER_00]: Wenn ihr noch mehr Lust auf Astas habt, kommt gerne in unsere Engineering hier zu Diskot Community vorbei, dort dommeln sich Entwickler in den Daten Menschen und auch alles andere was krank und Namen hat im Tech universe. [SPEAKER_00]: Wir halten machen wir das Dürchen mal wieder zu, aber keine Sorge, das nächste Wartet schon, froh er Adventszeit in der Zwischenzeit, bleibt auf dem Fehn neues und bis zu nächsten Epi-Sollek.

Transcript source: Provided by creator in RSS feed: download file

Episode description

Transcript