Methoden zum Erkennen einer Fehlerbedingung in Microcontroller-Systemen

**Dirk** · 13.03.2016, 19:53

Hi Spezialisten,

beim Bau von autonomen Robotern gibt es ab und zu das Problem, dass in einem Programm eine Fehlerbdingung auftritt. Das sollte es natürlich bei guter Programmierung nicht geben, aber auch Hardware-Probleme oder Ereignisse von außen könnten ein Programm z.B. zum "Absturz" bringen.

Ich habe derzeit ein Doppel-Prozessor-System, das via I2C verbunden ist. Das System soll wechselseitig feststellen, ob auf der jeweils anderen Seite alles ok ist und ob das Programm dort läuft.
Das habe ich schon umgesetzt durch einen "Heartbeat"-Prozeß, der Alarm gibt, wenn ein "Herzschlag" der anderen Seite nicht mehr bemerkt wird. Das setzt aber z.B. zumindest eine funktionierende I2C-Verbindung voraus, was auch gestört sein könnte.

Wenn z.B. ein Mars-Rover auf dem Mars herumfährt, muss er ja auch merken, wenn sich z.B. ein internes Teilsystem "aufhängt" und muss dann sicher stellen, dass z.B. die Kommunikation mit der Basisstation auf der Erde noch klappt oder Solarzellen zum Licht gedreht werden. Dann müßte er auch versuchen, das 1. System probeweise wieder "hochzufahren", um zu merken, ob es noch funktioniert.

Fragen über Fragen:
Was sind Methoden und Konzepte für so ein Sicherheitskonzept?
Braucht man immer dafür mind. ein ZWEITES Controller System oder gibt es auch eine Sicherheitsmethode für ein EINZELNES Controllersystem, damit es sich selbst überwacht?
Wie würdet ihr sowas programmieren?
Hat jemand das schon einmal gemacht?

**Peter(TOO)** · 13.03.2016, 21:25

Hallo Dirk,

Das einfachste ist ein Watchdog. Hat heute fast jeder µC mit drauf.

Bei der einfachsten Variante darf der Timer einfach nie ablaufen, andernfalls wird ein Hardware-Reset ausgelöst.

Nun kann aber das Programm so durchdrehen, dass es nur noch dauernd den Watchdog zurücksetzt

Für diesen Fall gibt es eine verbesserte Variante, bei welcher das zurücksetzen innerhalb eines bestimmten Zeitfensters erfolgen muss.
Wird zu früh oder zu spät zurückgesetzt gibt es einen Reset.

Ein Problem ist natürlich der Aufwand und die Komplexität der ganzen Überwachung. Wird das System zu kompliziert, führt alleine dieses schon zu vermehrten Ausfällen.

Bei kritischen Systemen (z.B. Flugzeug) baut man alles 3-fach auf, hier liegt das Optimum.
Bei 3 System geht man dann davon aus, dass die Mehrheit recht hat. Auch die Aktoren sind 3-fach vorhanden, wobei jeder Aktor die nötigen Kräfte alleine aufbringen kann. Im Fehlerfall arbeiten dann zwei Aktoren gegeneinander und kompensieren sich Kräftemässig, der Dritte hat dann die eigentliche Arbeit!
Bei der Zivilluftfahrt hat man dann auch noch an mögliche Systematische Fehler gedacht. Jeder der 3 Rechner benutzt eine andere CPU-Architektur eines anderen Herstellers. Zudem wird alles von 3 unabhängigen Teams entwickelt, auch die Software. Damit versucht man zu verhindern, dass Architektur- oder Herstellungsfehler, auch der CPU, nicht auf allen 3 Systemen gleichzeitig auftreten können. z.B. hatte der 80386 anfänglich mehrere, temperaturabhängige Rechenfehler im 32-Bit Teil.

Das Spaceshuttle hatte 3 identische Rechner und einen Backuprechner zur Überwachung. die ersten 1 oder 2 Starts wurden verhindert, weil die Rechner nicht ganz synchron liefen und deshalb dauernd eine fehlerhafte Datenverarbeitung gemeldet wurde.

Die Leitstelle der BVB (Basler Verkehrs Betriebe) bestand in den 70er Jahren aus zwei PDP11. Einer kleineren, welche normalerweise die Arbeit machte und einer grösseren, welche die erste überwachte und im Fehlerfall die Arbeit der ersten übernahm.

Beim Mars-Rover wird natürlich Verschiedenes verwendet.
Wichtige Systeme sind, wenn möglich, mehrfach vorhanden, Ist auch eine Gewichts und Kostenfrage, weshalb man auch nicht alle Experimente doppelt mitnehmen kann.
Im Fehlerfall stoppt das Teil erst mal und fährt unwichtiges runter.
Das wichtigste ist dann die Funkverbindung, wenn die unterbrochen ist, werden erst mal die Antennen in die Grundposition gefahren und ausgerichtet.
Dann kann das Teil eine Menge an internen Spannungen, Strömen, Temperaturen, Positionen usw. messen und zwecks Analyse Richtung Erde funken.
Auch hat man verschieden Versorgungsspannungs-Busse und die Geräte können da unterschiedlich um- und abgekoppelt werden.
Festverdrahtet ist dann noch ein Monitorprogramm um das ganze Teil notfalls wieder hoch zu bekommen.
Für den Mars-Rover gab es übrigens zwei unterschiedliche Programme. Eines für den ganzen Flugbetrieb und eines für die Mission. Dasjenige für die Mission war irgendwo versteckt und komprimiert abgelegt. Nach der Landung wurde dann das Flugprogramm gelöscht und durch das eigentliche Missionsprogramm ersetzt.

MfG Peter(TOO)

**erik_wolfram** · 14.03.2016, 05:03

Leider kenne ich mich auf dem Gebiet nicht so gut wie mein Vorredner (Vorschreiber) aus.
Aber: solange ein Mensch im Spiel ist können immer Fehler passieren - spätestens durch die Komplexität des Programms und der fehlenden Übersicht/Verständnis!
Ein Fehler, der mir nicht nur einmal unter gekommen ist:

Ein Buffer (Array) wird permanent mit Werten gefüllt. Durch falsche Berechnungen, Abweichungen etc. wird dieser über den reservierten Bereich beschrieben.
Wenn nach dem reservierten Bereich wichtige Variablen stehen die dann einfach überschrieben/gelöscht werden, kann es unter Umständen zu den kuriosesten Fehler kommen die man sich vorstellen kann...
Ein Watchdog wird in dieser Hinsicht seine Grenzen haben - vielleicht ist es in diesem Fall sogar notwendig nicht mehrere Systeme parallel zu fahren, sondern abweichende, oder kontrollierende Systeme aufzusetzen.
Wenn 3 identische Systeme parallel laufen ist immernoch nicht garantiert, dass sie nicht alle drei den gleichen Fehler verursachen können... (der damit nicht erkannt wird)

Apropos: ein schönes Beispiel für Menschliches Versagen - In den USA gab es mal ein Gerät names Therac 25 welches die Strahlendosis für die Bestrahlung von Menschen berechnen sollte - mindestens 3 Patienten starben durch einen Fehler im Programm (vom Mensch verursacht)...

Jetzt fällt mir doch noch so ein Unwort dazu ein: FMEA - Fehler Möglichkeiten Einfluss Analyse. Ein "Brainstorming" zur Betrachtung möglicher eintretender Fehler und dem Vorbeugen dieser.

**i_make_it** · 14.03.2016, 06:55

Ansätze gibt es da ja einige, je nach Anforderung.
Bei Aktiv-Passiv Clustern, wird ein Heartbeat überwacht und wenn der Node mit dem Lead nicht mehr den Anforderungen genügt, bekommt die Software einen Reset verpasst, und ein anderer Node übernimmt den Lead.
Bei Aktiv-Aktiv Clustern kann entweder Synchon gearbeitet werden und die mehrheitlich identischen Ergebnisse entscheiden darüber welches Ergebniss als Fehlerhaft angesehen wird (Luftfahrt). oder es wird Lastverteilend je Node eine andere Aufgabe duchgeführt und pro Node laufen Watchdogs und Selbsttestroutinen.

Bei Raumfahrttauglichen Systemen, wird es noch mal ungleich schwieriger.
Da steht ja nur eine begrenzte Teileauswahl zur Verfügung.
Da fängt man schon an beim Schaltungsdesign Fehler zu vermeiden.
Elkos fallen flach, da im Vakuum das Elektrolyt per Dampfexplosion den Elko zerstören würde.
Alle Bautele werden auf Strahlungsfestigkeit ausgewählt (Abschirmung, Sruckturgröße und Werkstofftechnologie https://de.wikipedia.org/wiki/Silicon-on-Sapphire )
Und die Bauteile müssen in einem erweiterten Temperaturspektrum funktionsfähig sein (oft -55°C bis +150°C)
Es gibt sowohl von der NASA als auch von der ESA PDF Dokumente für freigegebene Bauteile.

Bei Speichern werden selbstkorrektur Möglichkeiten vorgesehen.
Auf Byte Ebene Paritätsbits, Dann ECC Hash für 2 Bit Fehler, Memory RAID (5) für größere Blöcke und doppelte Ausführung, (mirroring) um defekte Bits ersetzen zu können.
Als Backup System kommen auch teilweise diskret aufgebaute Command Sequenzer zum Einsatz, die festverdrahtete Programme abspulen.

Die NASA hat mit HAL/S dann noch eine eigene echtzeitfähige Programmiersprache.
http://www.brouhaha.com/~eric/nasa/h...g_in_hal-s.pdf

**oberallgeier** · 14.03.2016, 08:21

.. Die NASA hat mit HAL/S dann noch eine eigene echtzeitfähige Programmiersprache ..

HAL ? ? Gibts da ne Verbindung zum HAL auf der Discovery One (Kubrik bzw. Arthur C. Clarke) ? Hmmm, muss ich mal googeln.

Total OT: Seh' grad dass dies hier nicht mein 2001tes Posting, aber das siebentausendste ist. Oh Himmel wieviel Mist da dabei ist :-/
Da fällt mir zu HAL und IBM ein, dass man von letzteren auch nicht mehr viel hört.

**i_make_it** · 14.03.2016, 19:26

Laut meiner Info nicht.

2001 - HAL9000 => IBM

I-1 = H
B-1 = A
M-1 = L

**Peter(TOO)** · 15.03.2016, 01:10

Hallo i_make_it,

HAL/S = High-order Assembly Language/Shuttle

Irgendwo in deinem NASA-Text, steht, dass ein verstorbener Freund Hal irgendwas Pate stand und das auch an HAL aus 2001 gedacht wurde ....

Sehr erfolgreich war HAL/S aber nicht.
Die On-Board Software des Space Shuttles ist ausschliesslich in HALL/S ausgeführt worden.
Das einzige andere Projekt ist die Höhenregelung des Galileo-System, welches teilweise HAL/S verwendet.
Das Deep Space Network verwendet teilweise HAL/S, aber nur am Boden.

Scheinbar wurde dann 1985 HAL/S von Ada überrannt.
Ada wurde da die Pflichtsprache für alle Aufträge des DoD.
Mittlerweile scheint auch bei der NASA alles in Ada programmiert zu sein. Macht im Prinzip auch Sinn, da DoD und NASA gemeinsame Ressourcen nutzen.

MfG Peter(TOO)

**i_make_it** · 15.03.2016, 06:26

Zitat von Dirk

Was sind Methoden und Konzepte für so ein Sicherheitskonzept?

Bei modernen Controllern sind einige Sicherheitsfunktionen schon Build in.
Man muß sie nur einschalten/sinnvoll konfigurieren/nutzen.
Brown Out detection, damit bei Unterspannung keine falschen Ergebnisse oder Schaltzustände entstehen wird ein Reset ausgeführt.
Watchdog, damit bei Endlosschleifen/hängern ein Reset ausgeführt wird.
ECC memory, damit man erkennen kann das die Speicherzelle die man grade liest fehlerhafte Daten enthällt.

Will man mehr, muß man schon beim Hardare Design der Cotrollerkarte anfangen.
Man kann bestimmte Reaktionen in Hardware diskret implementieren und das Ergebniss als Digitalsignal auf einen Interrupteingang legen.
Damit kann das Programm im Interruptfall in eine ISR gezwungen werden, die prüft ob die internen Zustände zum externen Signal passend sind oder nicht.

Memory RAID geht halt nicht mit dem internen Speicher von µCs. Da muß man dann also ein Modell suchen, bei dem man vollständig auf externen Speicher wechseln kann.
Und diesen muß man dann mit allen Funktionen bauen. (addressierung, refresh, RAID Logik, etc.)

Zitat von Dirk

Braucht man immer dafür mind. ein ZWEITES Controller System oder gibt es auch eine Sicherheitsmethode für ein EINZELNES Controllersystem, damit es sich selbst überwacht?

Nicht zwingend.
Interne Softwarelösungen gehen aber immer auf die Systemperformance.
Ein zweites oder drittes externes System kann parallel zum ersten arbeiten und so die Systemzykluszeit kurz halten.

Zitat von Dirk

Wie würdet ihr sowas programmieren?

Gar nicht.
Da holt man eine zweiter Person, damit man den Denkfehler den man beim ersten System eingebaut hat und der später mal den Fehler verursachen wird, nicht auch in das Sicherheitssystem einbaut.
solche Sicherheitssysteme werden gerne von getrennten Teams entweickelt, die auch nicht direkt miteinander komunizieren, damit sie sich nicht gegenseitig beeinflussen können.

HaWe · 15.03.2016, 09:26

ja, die Fragen, die sich stellen, sind doch:
1) ist es nur eine Spielerei oder ein kommerzielles Produkt (Ausschluss-Kriterium!)?
2) können unabhängig davon beim Betrieb Menschen oder andere Lebewesen gefährdet oder geschädigt werden?
(direkt oder indirekt, z.B. auch im Straßenverkehr, auf öffentlichen Wegen und Plätzen)
3) können erhebliche Schäden an fremden Gegenständen auftreten (Betrieb in und außer Haus)?
4) besteht ggf generell eine Gefährdungshaftung, sodass eine Haftpflichtversicherung abgeschlossen werden muss?

wenn 1-4 ausgechlossen werden können, dann würde ich so vorgehen wie du (und mache es auch bereits so):
a) Multitasking-Betriebssystem, pre-emptiv (!!), mit hochrangigem Emergency-Stop-Task (bei mir: Raspberry Pi mit hochrangigem pthread-Task)
b) bei Fernsteuerung Heartbeat und für jede einzelne Fernsteuer-Message Checksum + acknowledge
c) bei Verbindungsproblemen sofortiger Notstopp
d) bei Kommunikationsproblemen nach 2 sek. Notstopp (hängt ntl. vom genauen Einsatzgebiet ab)
e) bei Battery-Low sofortiger Notstopp
f) bei Emergency-Button-Press sofortiger Notstopp
g) bei Anstoßen mit > 2G (hängt auch vom genauen Einsatzgebiet ab) in 3 Dimensionen (Accelerometer): sofortiger Notstopp
h) ein 2. Pi oder Arduino, der nur die internen Notstoppbedingungen parallel per Endlos-Loop überwacht sowie als Zusatzinput auch Heartbeat und Kommunikationsfehler übermittelt bekommt und dann direkt die Haupt-Spannungsversorgung z.B. mit 3 sek. delay per Relais kappt (Zeit hängt auch wieder vom genauen Einsatzgebiet ab).

Das aber auch nur, wenn selbst im schlimmsten Fall keine Gefährdung Dritter möglich ist, also nur im eigenen Haus oder eigenem, abgegrenztem, nicht öffentlich zugänglichem Grundstück (ich denke da an meinen Rasenmäher-Robot, den ich z.B. niemals beim Nachbarn einsetzen würde).

Ansonsten Finger weg von solchen Projekten.

**Peter(TOO)** · 17.03.2016, 01:02

Hallo,

Zitat von HaWe

ja, die Fragen, die sich stellen, sind doch:
1) ist es nur eine Spielerei oder ein kommerzielles Produkt (Ausschluss-Kriterium!)?
2) können unabhängig davon beim Betrieb Menschen oder andere Lebewesen gefährdet oder geschädigt werden?
(direkt oder indirekt, z.B. auch im Straßenverkehr, auf öffentlichen Wegen und Plätzen)
3) können erhebliche Schäden an fremden Gegenständen auftreten (Betrieb in und außer Haus)?
4) besteht ggf generell eine Gefährdungshaftung, sodass eine Haftpflichtversicherung abgeschlossen werden muss?

Ein wichtiger Punkt fehlt noch:
5) Kann das System im Fehlerfall einfach abgeschaltet werden?

In diesen Fall, kann man meist relativ einfach Parameter überwachen und im Störungsfall alles blockieren.
z.B. eine Hausheizung geht einfach auf Störung und die Bude wird kalt. Einer merkt dies dann und bestellt den Techniker. Bei einem nur zeitweise bewohnten Ferienhaus sieht es schon etwas anders aus. Wenn da gerade keiner wohnt, wird die Störung nicht bemerkt und es können dann Wasserleitungen einfrieren und platzen. Hier kann man mit unabhängigen Sekundärsystemen, wie z.B. Rohrheizung, arbeiten.

Bei einem Flugzeug kann man aber nicht einfach rechts ranfahren und den ADAC verständigen.

MfG Peter(TOO)

- - - Aktualisiert - - -

Zitat von i_make_it

Will man mehr, muß man schon beim Hardare Design der Cotrollerkarte anfangen.

Hier steckt da ein weiteres Problem:
Die Ausfallwahrscheinlichkeit eines Systems steigt mit dessen Komplexität.
z.B. ist jede Lötstelle eine potentielle Fehlerquelle. Je mehr Lötstellen um so eher ist kommt es zu einem Ausfall.
Irgendwann wird dann das System so Komplex, dass die zusätzliche Sicherheit es unsicher macht.

Zitat von i_make_it

Memory RAID geht halt nicht mit dem internen Speicher von µCs. Da muß man dann also ein Modell suchen, bei dem man vollständig auf externen Speicher wechseln kann.
Und diesen muß man dann mit allen Funktionen bauen. (addressierung, refresh, RAID Logik, etc.)

... und schon spielen die Lötstellen eine grössere Rolle, wie auch jedes zusätzliche Bauteil

.

Zitat von i_make_it

Da holt man eine zweiter Person, damit man den Denkfehler den man beim ersten System eingebaut hat und der später mal den Fehler verursachen wird, nicht auch in das Sicherheitssystem einbaut.
solche Sicherheitssysteme werden gerne von getrennten Teams entweickelt, die auch nicht direkt miteinander komunizieren, damit sie sich nicht gegenseitig beeinflussen können.

Diesen Fehler hatte Micro Soft bei Windows NT gemacht.
NT sollte eines der sichersten Betriebssysteme werden, weshalb man sich David N. Cutler als Chef holte. Eigentlich erreichte der Kernel auch alle Sicherheitsanforderungen, nur haben die MS-Programmierer dann, wie bei MS üblich, direkte Kernelaufrufe in ihren Programmen verwendet und so alles zu Nichte gemacht, worauf Cutler das Handtuch warf.
Bis etwa Win95 konnten MS-Programme Dinge, welche über das offizielle API gar nicht möglich waren. Es gab dazu eine Menge undokumentierte API-Aufrufe, teilweise auch direkt in den Kernel. Teilweise wurde auch direkt auf undokumentierte interne Datenstrukturen zugegriffen. Damals gab es auch Programme, welche Programme auf solche undokumentierte Aufrufe untersucht haben. Deswegen gab es auch einen Rechtsstreit mit MS.

Manche offiziellen Bugfixes von MS funktionierten auch nach dieser Art. z.B. gab es bei Win3.x einen Fehler im COM-Treiber: Die Abfrage auf Veränderung der Statusleitungen funktionierte nicht. Dadurch wurden auch keine Interrupts in einem solchen Fall ausgelöst. Der Bugfix bestand darin, direkt auf die interne Datenstruktur zuzugreifen und zwar einige Bytes hinter des offiziellen Struktur. MS garantierte auch, dass dies auch in späteren Win-Versionen funktioniert, was auch eingehalten wurde.
Im Win DDK war der Assembler Source-Code des Treiber vorhanden. Der Bug bestand in der Verwechslung zweier UART-Register, davon waren total 4 Source-Zeilen betroffen. Von MS gab es aber nie ein Update dieses Treibers

Und wenn ich mich richtig erinnere, war der Bug auch in Win95 noch enthalten.

MfG Peter(TOO)