BUG

Falsches Validierungs-RMSE für das multivariate forest-basierte Prognosemodell und leichte Abweichungen in den prognostizierten Werten für das multivariate forest-basierte Prognosemodell

Last Published: April 13, 2022

Beschreibung

Esri hat das forest-basierte Prognosetool in ArcGIS Pro 2.9 verbessert, um ein Modell mit einem multivariaten Forest zu erstellen, wenn Benutzer beschließen, andere Variablen zum Werkzeug hinzuzufügen. Der Validierungs-RMSE wird im multivariaten Modell jedoch unterschätzt. Wenn der Validierungs-RMSE verwendet wird, um das beste Modell im Werkzeug "Prognosen nach Standort bewerten" auszuwählen, kann dieser Fehler zu irreführenden Ergebnissen führen.

Zusätzlich zu dem Validierungsmodell verwendet das Prognosemodell angepasste Werte anderer Variablen, aber nicht die beobachteten Werte. Daher sind die prognostizierten Werte nicht korrekt.

Ursache

Um ein Validierungsmodell zu erstellen, schließt das Werkzeug einige der letzten Zeitschritte jeder Zeitreihe aus und passt das Forest-Modell an die Daten an, die nicht ausgeschlossen wurden. Dieses Validierungsmodell wird dann verwendet, um die Werte der Daten zu prognostizieren, die zurückgehalten wurden, und die prognostizierten Werte werden mit den beobachteten Werten verglichen, die ausgeblendet wurden, um den Validierungs-RMSE zu berechnen. Wenn das Validierungsmodell die Prognose durchführt, sollte das Modell davon ausgehen, dass es keine beobachteten Werte in Daten kennt, die für die Validierung ausgeschlossen sind, und immer die prognostizierten Werte verwenden, um den nächsten prognostizierten Wert vorherzusagen.Aber in 2.9 haben wir die beobachteten Werte fälschlicherweise verwendet, um die nächsten Schritte in der Validierung vorherzusagen. Deshalb wird der Validierungs-RMSE tendenziell unterschätzt.

Nehmen wir zum Beispiel an, wir verwenden die Quote der vollständig Geimpften, um die Prognose der täglichen neuen Todesfälle zu stützen, und wählen eine Gleitfenstergröße = 4. Vor Beginn der Validierung baut das Werkzeug zwei Modelle auf: ein univariates Modell für die Quote der vollständig Geimpften und ein multivariates Modell für die Anzahl der täglichen Todesfälle.

Wenn es um die Validierung des multivariaten Modells der täglichen Todesfälle geht, sollte das Werkzeug die letzten vier beobachteten Werte der täglichen Todesfälle und die letzten vier beobachteten Quoten der vollständig Geimpften verwenden, um das multivariate Modell mit Daten zu füttern und eine Prognose des ersten Validierungsschritts erstellen. Es sollte dann die letzten drei beobachteten Werte der beiden Variablen, den ersten prognostizierten Wert der täglichen Todesfälle und die erste Prognose der Quote der vollständig Geimpften verwenden, um eine Prognose für den zweiten Validierungsschritt zu erstellen. In entsprechender Weise sollte es die letzten beiden beobachteten Werte der beiden Variablen und sowohl die ersten beiden prognostizierten Werte der täglichen Todesfälle als auch die Quoten der vollständig Geimpften verwenden, um eine Prognose für den dritten Validierungsschritt zu erstellen; und so weiter. Durch diese Art der Berechnung des Validierungs-RMSE sollten die weiteren prognostizierten Schritte einen größeren Validierungs-RMSE aufweisen.

figure 1.png

Der Bug des Validierungs-RMSE in der veröffentlichten Version ArcGIS Pro 2.9 besteht darin, dass die Berechnung des Validierungs-RMSE in dem multivariaten forest-basierten Prognosemodell nicht die prognostizierten Werte berücksichtigt. Stattdessen werden die beobachteten Werte verwendet. Mit anderen Worten: Für jeden Validierungsschritt verwendet das Werkzeug immer vier zuvor beobachtete Werte der täglichen Todesfälle und vier zuvor beobachtete Quoten der vollständig Geimpften, um eine Prognose für den nächsten Wert der täglichen Todesfälle zu berechnen. Daher erhalten wir immer einen kleineren Validierungs-RMSE, da die Prognosen auf realeren Informationen basieren.

figure 2.png
Zusätzlich zu dem unterschätzten Validierungs-RMSE sind die prognostizierten Werte und der prognostizierte RMSE ebenfalls nicht korrekt. Das liegt daran, dass wir die beobachteten Werte der anderen Variablen verwenden sollten, wenn das Werkzeug ein multivariates Prognosemodell erstellt, sofern diese existieren, wie in der folgenden Abbildung zu sehen ist. Das Werkzeug verwendet jedoch stattdessen die angepassten Werte, wie in dem rechten Diagramm unten zu sehen ist. Da die angepassten Werte des Werkzeugs in den meisten Fällen sehr nah an den beobachteten Werten liegen, liegen die falsch prognostizierten Werte und die korrekten Prognosen nicht mehr als 1 % auseinander.

figure 4.pngfigure 5.png

Problemumgehung

Die Korrektur wird im kommenden ArcGIS Pro 2.9.3 Patch enthalten sein.

Bis der Patch freigegeben wird, gilt:

  • Ignorieren Sie den Validierungs-RMSE bitte.
  • Wenn Sie das Werkzeug Prognosen nach Standort bewerten verwenden, um ein multivariates forest-basiertes Prognosemodell mit anderen Modellen zu vergleichen, wird empfohlen, das Kontrollkästchen Mit Validierungsergebnissen bewerten zu deaktivieren (siehe folgende Abbildung).
Deaktivieren des Kontrollkästchens
  • Beachten Sie, dass die Zahlen des Vorhersage-RMSE und die prognostizierten Werte etwas ungenau sind.

Artikel-ID:000027265

Benachrichtigungen erhalten und Lösungen für neue oder häufige Probleme finden

Unser neuer KI-Chatbot stellt zusammengefasste Antworten und Videolösungen für Sie bereit.

Esri Support App herunterladen

Zugehörige Informationen

Weitere Informationen zu diesem Thema erkunden

Unterstützung durch ArcGIS-Experten anfordern

An den technischen Support wenden

Esri Support App herunterladen

Zu Download-Optionen wechseln