Zusammenfassung der Forschungsergebnisse

Im Rahmen dieser Studie wurden datengetriebene Prognosemethoden des Sales Forecasting am Fallbeispiel der Grünenthal GmbH untersucht. Grundsätzliches Forschungsziel war es, herauszufinden, ob statistische Methoden der Zeitreihenanalyse trotz besonderer Marktcharakteristika der Pharmaindustrie (Hohe Anzahl von Konzernübernahmen, Patentschutzzeiten, staatlich regulierte Preise) zu präzisen Prognosen führen können. Als Zielvariable wurde der monatliche Umsatz aller Grünenthal Produkte mit dem Wirkstoff Tapentadol festgelegt. Dieser wird in Bezug auf die geographische Dimension für 13 europäische Länder, sowie auf aggregierter europäischer Ebene prognostiziert. Als Prognosehorizont wurden vier Monate festgelegt, d.h. dass an den Tertialenden (30.04, 31.08, 31.12) jeweils Umsätze für die folgenden vier Monate prognostiziert werden.

In Bezug auf die Präzision von Absatzprognosen existieren bereits Benchmark Studien in der Literatur. Für einen Forecast auf Produktebene und einen Prognosehorizont von unter 3 Monaten wurde eine durchschnittliche Prognosegenauigkeit132 von 84% festgestellt, wobei insgesamt 96 Unternehmen befragt wurden.133 Weil dieser Wert keine domänenspezifische Benchmark darstellt, wurde durch Rücksprache mit den Fachabteilungen der Grünenthal GmbH ermittelt, dass eine Prognose mit einem durchschnittlichen Prognosefehler von unter 10% als präzise angesehen werden kann, da bisher keine exakteren Prognosen für den betrachteten Sachverhalt bestehen.

Basierend auf den monatlichen Umsatzdaten wurden für alle 13 Länder jeweils ARIMA und ETS Modelle spezifiziert (siehe Anhang 2 und Anhang 3 ). Für die Selektion der geeigneten Modellspezifikation wurde jeweils das adjustierte Akaike Informationskriterium (AICc) verwendet . In die Modellspezifikation und Parameterschätzung flossen Daten bis einschließlich Dezember 2017 ein. Die weiteren Umsatzdaten (ab Januar 2018) wurden jeweils als Testdaten einbehalten. Mit den spezifizierten ARIMA und ETS Modellen wurde jeweils das erst e Tertial aus 2018 prognostiziert und mit den „wahren“ Testdaten abgeglichen. In den Ländern Deutschland, Irland, Italien, Niederlande, Portugal, Spanien, Schweden, Schweiz und dem Vereinigten Königreich konnten die Prognosen mit einem MAPE von unter 10% f ür jeweils beide Modellklassen als präzise beurteilt werden. In den Ländern Österreich, Dänemark und Norwegen lag der durchschnittliche absolute Prognosefehler für die vier prognostizierten Monate zwischen 10% und 20% in beiden Modellklassen. Die schwächsten Prognosen wurden für das Land Belgien erstellt, in dem sowohl aus ARIMA und ETS Modellen ein Forecast mit einem MAPE von mehr als 40% resultierte. Auffällig war der starke Zusammenhang (Korrelation von 0,97 gemessen am MAPE) zwischen der Prognosegenauigkeit von ARIMA und ETS Modellen. Die Umsätze auf europäischer Ebene wurden mit zwei Ansätzen prognostiziert. Der direkte Ansatz bestand in einer Spezifikation von ARIMA und ETS Modellen auf Zeitreihen der europäischen Umsätze. Der Bottom-Up Ansatz aggregierte die zuvor berechneten Prognosen der 13 Länder. Beide Ansätze führten zu ähnlichen Ergebnissen gemessen am MAPE (ca. 7% und 8%), die nach obiger Festlegung als zufriedenstellend (= präzise) betrachtet werden können.

Es kann die Aussage getroffen werden, dass die statistischen Methoden der Zeitreihenanalyse mehrheitlich (10/14 Fällen) zu präzisen Prognosen führten. Die einzig deutlich schwächere Prognose im Fall von Belgien könnte in der Kürze der verwendeten Zeitreihe (31 Datenpunkte) begründet sein, da ebenfalls ein Absinken des Prognosefehlers mit zunehmender Zeitdauer beobachtet werden konnte.

Eine abschließende Aussage bezüglich der Prognosegenauigkeit kann noch nicht gefällt werden, da bisher nur ein „wahrer“ Forecast für vier Datenpunkte erstellt wurde. Die Prognosegenauigkeit muss demnach durch weitere Forecasts für die nächsten Tertiale bestätigt werden.

Die auf Basis der ARIMA und ETS Modelle erstellten Prognosen basieren allein auf der Zeitreihenstruktur der Zielvariable. Da in der gegebenen Fallstudie auch Daten über die Umsätze der Wettbewerber sowie eigene Marketingkennzahlen in Form von Zeitreihen verfügbar waren, wurden ebenfalls DR-Modelle erstellt, die diese Informationen miteinbeziehen. Die Spezifikation dieser Modelle war aufwendiger: Zunächst wurde eine optimale Kombination von Regressoren zur Erklärung der Zielvariablen ermittelt. Die Residuen des resultierenden Regressionsmodells wurden wiederum über ein ARIMA Modell modelliert. Die Forecasts verschiedener DR-Modelle führten in den umsatzstärkeren Ländern Deutschland, Spanien und Italien zu keinen (nennenswert) exakteren Prognosen als die Benchmark ARIMA Modelle.Dies ist wohl darin begründet, dass für die Vorhersage der Zielvariable zum Zeitpunkt T + h über das Regressionsmodell, alle Regressor Variablen zum Zeitpunkt T + h bekannt sein müssen. Weil dies nicht gegeben war, mussten die Ausprägungen der Regressor Variablen zum Zeitpunkt T + h selbst über ETS/ARIMA Modelle geschätzt werden. Der Gewinn an potentieller Prognosesicherheit durch die Regressionsbeziehung wurde scheinbar durch die Unsicherheit der Regressor-Forecasts kompensiert bzw. wieder verloren.

Gemäß dem Prinzip der Sparsamkeit sollten Modelle mit einer geringen Anzahl an zu schätzenden Parametern bevorzugt werden, um eine Überanpassung an historische Daten zu verhindern. Nach diesem Prinzip und aus Gründen der Wirtschaftlichkeit ist die Verwendung von DR-Modellen dann sinnvoll, wenn sie eine höhere Prognosegenauigkeit als ARIMA und ETS Benchmark-Modelle aufweisen.135 Sofern allein die Prognosegenauigkeit als Maßstab für die Auswahl eines Modells gilt, ist die Verwendung von ARIMA bzw. ETS Modellen gegenüber DR-Modellen für die betrachteten Länder vorzuziehen.

Betrachtet man die empirischen Ergebnisse dieser Arbeit scheinen hinsichtlich der Prognosegenauigkeit nur geringfügige Unterschiede zwischen ARIMA und ETS Modellen zu bestehen. Sollte sich dieser Eindruck durch weitere Prognosen mit beiden Modellklassen bestätigen, so gibt es aus Perspektive der Wirtschaftsinformatik Motive, die eine bevorzugte Verwendung von ETS-Modellen für das gegebene Fallbeispiel indizieren. Sind ETS und ARIMA Modelle hinsichtlich ihrer Prognosegenauigkeit als äquivalent einzustufen (Effektivität), sollte die Modellklasse bevorzugt werden, die geringeren Aufwand verursacht (Effizienz). Hinsichtlich der Modellspezifikation sind die ARIMA Modelle als aufwendiger zu betrachten, da zunächst die Annahme einer stationären Zeitreihe hergestellt werden muss. Im gegebene Fallbeispiel mussten alle originären Zeitreihen differenziert und die meisten auch box-transformiert werden, um zumindest annähernde Stationaritätseigenschaften herzustellen. Die schließlich aus den ARIMA Modellen berechneten Prognosewerten mussten wiederum zurück auf die Skala der originären Zeitreihe transformiert werden. Diese Transformationen entfallen bei ETS-Modellen, da diese keiner Stationaritätsannahme bedürfen.

Die Informationskriterien lassen sich unter allen ETS-Modellen vergleichen, wodurch sich ein höheres Automatisierungspotenzial der Modellparametrisierung und -schätzung von ETS-Modell gegenüber ARIMA-Modellen ergibt. Schließlich ist die Bedeutung einzelner Parameter von ETS Modellen (nach Meinung des Autors) leichter zu interpretieren als es bei ARIMA Modellen der Fall ist.

Insgesamt führen die angeführten Argumente dazu, dass bei Annahme einer Gleichwertigkeit der Prognosegenauigkeit, ETS-Modelle gegenüber den ARIMA Modellen für das gegebene Fallbeispiel zu bevorzugen sind.

Kritische Würdigung

Im Rahmen dieser Studie sind einige Sachverhalte aufgetreten, die einer kritischen Würdigung bedürfen:

Die Auswahl der Zielvariable „Umsatz in € aller Produkte mit Wirkstoff Tapentadol“ wurde in Abstimmung mit den Fachabteilungen der Grünenthal GmbH festgelegt. Dies reflektiert, dass neben der wissenschaftlichen Methodendiskussion auch eine Problemstellung aus der wirtschaftlichen Praxis mit dieser Arbeit adressiert wurde. Die Selektion einer in Geldeinheiten ausgedrückten Zielvariable ist durchaus kritikwürdig. Durch diese Definition ist die Zielvariable abhängig von Inflation und in den Ländern Dänemark, Norwegen, Schweiz und dem Vereinigten Königreich zusätzlich von Wechselkursen der Währungen dieser Länder zum Euro. Eine dimensionslose Zielvariable wie zum Beispiel „Anzahl an Verkäufen“ würde diese Probleme vermeiden, ist jedoch für die Problemstellung ungeeignet, da unterschiedliche Palexia Produkte (verschiedene Packungsgrößen, Dosierungsstärken und Darreichungsformen) mit Ihren jeweiligen Preis gewichtet werden müssen, um den Sachverhalt angemessen abzubilden.

Weil die definierte Zielvariable eine über mehrere Produktdimensionen aggregierte Kennzahl darstellt, wurden die Quelldaten dieser Forschungsarbeit aus einer bereits bestehenden Business Intelligence Anwendung des Unternehmens extrahiert. Die Verwendung dieser Datenquelle ist darin begründet, dass diese Daten fachlich validiert wurden und somit Fehler im Aggregationsprozess der Rohdaten des DWH ausgeschlossen werden können.

Bei Spezifikation der ARIMA Modelle konnten in den Ländern Österreich, Deutschland, Schweiz und dem Vereinigten Königreich keine idealen Stationaritätseigenschaften hergestellt werden. So wiesen die Zeitreihen auch nach Durchführung der Box- Transformation das Charakteristikum einer mit zunehmenden Dauer ansteigenden Varianz auf. Dennoch bestanden diese Länder den KPSS Hypothesentest zur Überprüfung der Stationarität.

Die spezifizierten ETS, ARIMA und DR-Modelle wurden unter Minimierung des Informationskriteriums AICc gewählt. In der Literatur werden alternative Ansätze (z.B. „Time Series Cross Validation“136), beschrieben, um die optimalen Modelle innerhalb einer Modellklasse auszuwählen. Es bleibt zu untersuchen, ob die Modellselektion über alternative Ansätze zu besseren Prognosen führen kann.

In der Arbeit wurde eine Separation der Daten in Test – und Trainingsdaten vorgenommen. Für jede Zeitreihe wurden die letzten vier Beobachtungen einbehalten, was dem definierten Prognosehorizont von vier Monaten entspricht. Alternativ hätten mehr Testdaten einbehalten werden können (z.B. 8 Monate), um mehr Datenpunkte zur Evaluation der Prognosegenauigkeit zur Verfügung zu haben. Der „Trade-Off“ wären weniger Beobachtungen für Modellspezifikation und -schätzung gewesen. In Anbetracht der verhältnismäßig kurzen Zeitreihen (jeweils < 100 Datenpunkte) wurde der Alternative mit einer minimalen Testdatenmenge Vorrang gegeben. Wie bereits ausgeführt, müssen die Ergebnisse bezüglich der Prognosegenauigkeit der Modelle durch weitere Forecasts bestätigt werden und sind als vorläuf ig zu betrachten. Insbesondere bleibt abzuwarten, wie die Modelle auf einen Strukturbruch in der Zeitreihe der Palexia Umsätze reagieren, der eintreten könnte137, wenn die Patenschutzzeit der Grünenthal GmbH auf den Wirkstoff Tapentadol abgelaufen ist.

Forschungsausblick

Im Rahmen der explorativen Analyse wurde festgestellt, dass die differenzierten Zeitreihen von allen Wettbewerbern des N2A Marktes miteinander korrelieren (siehe Abbildung 11). Ein möglicher Erklärungsansatz könnte in der Erfassungsmethode des Dienstleisters IQVIA bestehen, von dem die Daten über die Umsätze der Mitbewerber im N2A Market bezogen wurden. Falls dies ausgeschlossen werden kann, so scheint es Faktoren (z.B. Prävalenz bestimmter Krankheitsbilder oder allgemeine physiologische Faktoren) zu geben, die auf den gesamten N2A Markt gleichermaßen wirken. Eine Forschungsaufgabe bestände somit in der Ermittlung dieser Faktoren.

Im Rahmen dieser Arbeit wurde gezeigt, dass über statistische Methoden der Zeitreihenanalyse mehrheitlich präzise Vorhersagen getroffen werden können. Weil die Prognosen auf Basis historischer Beobachtungen der betrachteten statistischen Variable getroffen werden, ist von Fehlprognosen auszugehen, sofern Strukturbrüche in den Zeitreihen auftreten. Bedingt durch die besonderen Marktcharakteristika der Pharmaindustrie ist mit dem Auftreten solcher Strukturbrüche in den Zeitreihen zu rechnen. Zum Beispiel könnte die aktuelle „Opioidkrise“ in den USA zu Verschärfungen der Schmerzmittel Gesetzgebung in Europa führen. Genauso wie der Ablauf der Patentschutzzeit des Produktes Palexia könnte dies zu einem plötzlichen Umsatzrückgang führen, den reine Zeitreihenmodelle138 aufgrund Ihrer Natur (Abhängigkeit von historischen Daten) nicht (präzise) prognostizieren können. Eine modelltheoretische Fragestellung wäre in diesem Kontext, wie schnell verschiedene Modelltypen nach Strukturbrüchen in den Zeitreihen zu präzisen Prognosen zurückfinden. In diesem Zusammenhang könnten sich DR-Modelle durch die Einbeziehung von weiteren Variablen als robustere Modelle erweisen.