Tutorium Monte Carlo Analyse

Aus ILMS-Wiki
Wechseln zu: Navigation, Suche

Der JAMS Data Explorer (JADE) bietet eine mächtige Werkzeugsammlung für die Monte - Carlo - Analyse von Umweltmodellen. Dies beinhaltet Methoden zur Sensitivitätsanalyse, Unsicherheitsanalyse und Visualiserung von Datensätzen, basierend auf der Monte - Carlo - Toolbox (MCAT), die von T. Wagener (??) entwickelt wurde.

Voraussetzung für die Anwendung der meisten MCAT Methoden ist ein vorangegangenes Monte - Carlo - Sampling, das heißt häufig wiederholte Anwendung des zu analysierenden Modells mit gestörten Parameter- und Eingabedaten. Um diese Aufgabe zu erfüllen existieren mehrere RandomSampler Komponenten, die ausführlicher hier [?] erklärt werden.

Das Resultat des Samplings ist eine Zusammenstellung der Modellantworten, die aus Modelparametern, Gütekriterien, skalaren Modellergebnissen sowie räumlichen und zeitlich aufgelösten Datensätzen bestehen können.

Bei der Arbeit mit Ensembles entstehen oft riesige Datenmengen, deren Verarbeitung hohe Rechenzeit- und Speicheranforderungen bedarf. Da, das allgemeine JAMS Datenkonzept hierbei an seine Grenzen stößt, wurde mit Hinblick auf

  • Effiziente Datenspeicherung unter Berücksichtigung des Speicherbedarfs
  • Schnelle und einfache Erstellung von Ensembles aus Rohdaten
  • Flexibilität und Erweiterbarkeit im Sinne von Datentypen
  • Einbettung von Metadaten

entwickelt. Um einen Ensemble Datensatz zu erstellen, wird wie folgt vorgegangen. Wählen Sie im Menü Datei den Eintrag Erzeuge Ensemble. Sie sehen nun folgenden Dialog Ensemble import dialog.png

Klicken sie nun auf die Schaltfläche Laden um eine JAMS-Modellausgabendatei (z.b optimizer_wizard_J2K.dat) auszuwählen. Nachdem Sie eine Datei gewählt haben, werden alle enthaltenen Datensätze aufgelistet. MCAT unterscheidet zwischen vier verschiedenen Datentypen: Parameterwerten, Gütekriterien, skalaren Modellausgaben und simulieren und beobachteten Zeitserien. Da diese Information nicht explizit in den Modellausgaben enthalten ist, müssen Sie diese angeben. Allerdings sind für viele Anwendungen bereits Standardwerte hinterlegt, die die Arbeit erleichtern. Ensemble import dialog filled.png

Sie können beliebige weitere Datensätze zu dem Ensemble hinzufügen. Achten Sie aber darauf, dass nicht jede Zusammenstellung semantisch korrekt ist. Zum Beispiel ist die Verknüpfung von unterschiedlichen Monte - Carlo - Samplings ist im Allgemeinen nicht sinnvoll. Zum Abschluß beenden Sie den Dialog mit "OK". Sie werden nun aufgefordert die Ensemble-Datei zu speichern. Speichern Sie diese im gleichen Verzeichnis in dem sich auf die anderen Modellausgaben befinden (z.B. workspace\output\current\) Öffnen Sie nun den entsprechenden Workspace und klicken sie doppelt auf die Ensembledatei. Es öffnet sich nachfolgende Unterfenster, welches die wichtigsten Informationen über das Ensemble liefert. Dazu gehören die vorhandenen Datensätze, die Anzahl der Monte - Carlo - Simulationen, der abgedeckte Modellierungszeitraum und der verwendete Monte - Carlo - Sampler.

Main ensemble dialog.png

Im Nachfolgenden werden die verfügbaren Werkzeuge in Kurzform vorgestellt.

Inhaltsverzeichnis

Anwendungen

Modellidentifikation

Jede Modellparamerisierung führt zu einer indivduellen Modellierung des realen Systems. Falls die Modellierung mit den Beobachtungen konsistent ist, lieft die Modellierung eine Erklärung der Beobachtungen, andernfalls ist die Modellierung ungeeignet. In vielen Fällen kann ein Modell, Beobachtungen in der Natur (beispielsweise Niederschlags-/Abflussverhalten) auf unterschiedliche Art und Weise erklären. Dieser Sachverhalt, der unter dem Begriff Equifinalität bekannt ist, zeigt sich unter anderem dadurch, dass unterschiedliche Parametrisierungen zu (scheinbar) gleich guten Modellen führen. In der Realität sind diese allerings oftmals nicht gleichwertig, da die vorhandenen Beobachtungen zwar gut erklärt werden, aber interne Modellzustände, die nicht validiert werden (können), teilweise oder völlig inkonsistent mit dem realen System sind. Letzlich erklärt sich Equifinalität dadurch, dass unterschiedliche System- und Modellzustände zu ähnlichen System- und Modellantworten führen können. Wäre es möglich jeden Modellzustand zu beobachten, würde das Problem nicht auftreten, da dies aber in der Praxis unrealistisch ist, ist es unmöglich zu entscheiden, welche Modellparametrisierungen tatsächlich korrekt sind und welche zurückgewiesen werden können. Equifinalität ist also keine Eigenschaft des Modells, sondern tritt erst in Verbindung mit Beobachtungen auf.

Die dadurch entstehende Mehrdeutigkeit, führt zunächst zu einer erhöhten Parameterunsicherheit, da aus den gegebenen Beobachtungen keine global eindeutige Parametrisierung abgeleitet werden. Folglich sollten möglichst alle (bzw. eine repräsentative Menge) der geeigneten Parametrisierungen für die Modellierung verwendet um den Einfluss der Unsicherheit in der Paramtrisierung auf die Modellantwort abzubilden (Wagener et. al, 2003). Hierfür ist es zunächst hilfreich festzustellen, welche Modellparameter eindeutig identifiziert werden können und welche nicht. Ein Modellparameter ist genau dann identifizierbar, wenn alle geeigneten Parameterwerte in einem relativ kleinen Bereich des gültigen Parameterintervalls liegen, wobei eine Parametrisierung geeignet ist, wenn sie zu plausiblen Modellantworten führt. Dadurch lässt sich ein Modell ist identifizierbar definieren, sofern dessen Parameter alle identifizierbar sind. In diesem Fall kann aus den Eingabe- und Messdaten eine eindeutige Parametrisierung abgeleitet werden. Detailierte Ausführungen bietet u.a. L. Ljung (1999).

Sensitivitätsanalyse

Unsicherheitsanalyse

Methoden

Dotty Plot

Anwendung: Modellidentifikation, Sensitivitätsanalyse
Inputdaten: Parameter, Gütekriterium

Ein Dotty Plot ist ein spezielles Streudiagramm zur Prüfung auf Parameter - Identifizierbarkeit und Sensitivität. Jeder Punkt repräsentiert ein Gütekriterium, das mit einer speziellen Parameterkombination erzielt wurde. Für die Visualisierung wird der Parameterraum durch Auswahl eines Parameters auf eine Dimension projiziert. Die restlichen Parameter werden dabei ignoriert. Die obere Kante der Punkte repräsentiert eine Nährung für die beste Modellrealisation, die mit einem bestimmten Wert des ausgewählten Parameters erzielt werden kann. Falls diese Linie ein wohldefiniertes Maximum in einem schmalen Intervall aufweist, kann der Parameter als gut identifizierbar eingeordnet werden. Die beiden Abbildungen zeigen einen gut identifizierbaren eunen nicht identifizierbaren Parameter.

Dottyplot.png

A Posteriori Parameter Distribution

Anwendung: Modellidentifikation
Inputdaten: Parameter, Gütekriterium

Der A Posteriori Parameter Distribution Plot kann mit Hilfe des Dotty Plots beschrieben werden. Zunächst werden die Gütewerte der Parameter eff\left(p\right) normiert, so dass sie als Wahrscheinlichkeit L\left(p\right) interpretiert werden können. Damit gilt für L(p)

  • 0\leq L(p) \leq 1
  • \sum_{p \in P } L(p) = 1
  • L(p)<L(p') \Rightarrow eff(P) \; schlechter \; als \; eff(p')

Die Parameterachse des Dotty Plots wird in mehrere gleich große Teilintervalle zerlegt. Jeder Punkt des Dotty Plots wird nun seinem entsprechendem Intervall zugeordnet. Für jedes Intervall Ik wird die durchschnittliche Wahrscheinlichkeit der zugehörigen Punkte berechnet. Das entstehende Balkendiagramm stellt damit die Wahrscheinlichkeit dar, dass der wahre Wert des Parameters in dem entsprechenden Intervall liegt. Ein Maximum Likelihood Schätzer würde nun, das Interval mit maximalen Wert als beste Schätzung für den Parameter annehmen. Ist der Parameter identifizierbar, sollte ein Balken mit hoher Wahrscheinlichkeit herausstechen. Die beiden Abbildungen zeigen einen identifizierbaren und einen nicht identifizierbaren Parameter.

A posteriori plot.png

Identifiability Plot

Anwendung: Modellidentifikation
Inputdaten: Parameter, Gütekriterium

Zunächst werden die Parametrisierungen des Monte - Carlo - Sampling nach ihrer Güte geordnet. Anschließend erfolgt eine Klassifikation der Parametrisierungen in geeignet und ungeeignet basierend dem gewählten Gütekriterium und einem statischen Schwellwert. In dieser Implementierung werden nur die besten 10% aller Parametrisierungen als geeignet eingestuft. Genau wie bei dem A Posteriori Plot wird nun auch hier das Gütekriterium in ein Wahrscheinlichkeitsmaß überführt und dessen kumulierte Wahrscheinlichkeitsverteilung (F) berechnet. Die Identifizierbarkeit des Parameters wird dann nach der Form von F bewertet. Falls die Darstellung von F eine gerade Linie zeigt, impliziert dies, dass die geeigneten Parameter über dem Parameterraum gleichverteilt sind. Dies ist ein Hinweis darauf, dass der Parameter schlecht identifizierbar Im gegenteiligen Fall einer nicht linearen kumulierten Wahrscheinlichkeitsverteilung F ist dies ein Hinweis auf einen besser identifizierbaren Parameter. Je enger und steiler die Kurve von F umso besser ist der Parameter identifizierbar. Die nachfolgende Abbildung zeigt den Idenfiability Plot einmal für einen gut identifizierbaren und einen nicht schlecht identifizierbaren Parameter. Identifiability plot.png

DYNIA

Best Prediction Plot

GLUE Variable Uncertainty

GLUE Output Uncertainty

Parato Output Uncertainty

Class Plot

Normalized Parameter Range Plot

Regional Sensitivity Analysis

Regional Sensitivity Analysis 2

Meine Werkzeuge