Datenwissenschaftliches Abschlussprojekt #19

von Ekaterina Butyugina

datenwissenschaftliche-abschlussprojekte
Im folgenden Blogbeitrag werden Data Science-Projekte von Vollzeitstudenten vorgestellt, die ihr Programm abgeschlossen haben. Hier sind die unglaublichen Ergebnisse, die sie in so kurzer Zeit erworben haben.

 

SIX: Vorhersage des Zahlungsverkehrsvolumens

Studenten: Alžbeta Bohiniková, Luis Miguel Rodríguez Sedano, Mukund Pondkule, Michael Flury

SIX verbindet die Finanzmärkte in der Schweiz und im Ausland und bietet Dienstleistungen im Zusammenhang mit ihren vier Geschäftsbereichen an: Börsen, Wertpapierdienstleistungen, Bankdienstleistungen und Finanzinformationsdatenanbieter.

Ziel des Projekts war der Aufbau einer vollautomatischen Pipeline zur Prognose zukünftiger Transaktionen bei gleichzeitiger Analyse des Geschäftskontexts hinter dem bereitgestellten Datensatz.

Die Vorhersage des Transaktionsvolumens ist für SIX von entscheidender Bedeutung, da ihr Umsatzmodell für die Zahlungsabwicklung auf Transaktionsgebühren basiert, die jedes Mal anfallen, wenn ein Händler eine Zahlung erhält. Diese variieren je nach der von SIX erbrachten Dienstleistung (z. B. direkte Transaktionsgebühren für Standardzahlungen, erhöhte 3-D-Sicherheitskontrollen und Betrugsprüfungen).

Aus den historischen Daten der einzelnen Händler haben die Studenten eine Pipeline erstellt, die das gesamte Transaktionsvolumen für jeden Monat ausgibt. Mit diesen Informationen werden drei verschiedene Zeitreihenmodelle trainiert. Seasonal Autoregressive Integrated Moving Average (SARIMA), Exponential Triple Smoothing (ETS), und Prophet (Vorhersagemodell von Facebook). Das beste Modell wird anschliessend ausgewählt und für die Vorhersage künftiger Transaktionsmengen verwendet. Letztendlich werden die Prognoseergebnisse gespeichert, sobald neue monatliche Daten eingehen. Die Pipeline vergleicht sie dann automatisch mit den zuvor prognostizierten Transaktionsvolumina.



graph



Dieses Diagram zeigt der ETS-Modell in der Pipeline hat das Transaktionsvolumen (blaue Linie auf der rechten Seite) für das nächste Jahr auf der Grundlage der historischen Daten der letzten 26 Monate prognostiziert.

Durch die automatische Überwachung wird die von Alzbeta, Luis, Mukund und Michael entwickelte Pipeline bestehende Modelle bewerten und ihre Leistung beurteilen, wenn neue Daten gesammelt werden. Darüber hinaus könnte der Algorithmus auch zur Erstellung neuer Modelle verwendet werden, wenn frühere Vorhersagemodelle für künftige Geschäftsentscheidungen nicht mehr ausreichen.

 

Rolos by Constructor: Analyse der Fangemeinde von Sportmannschaften in den sozialen Medien

Studenten Naemi Graf, Joana Duarte, Mihaela Cucui

Rolos by Constructor ist ein Unternehmen, das sich auf Beratungsdienste im Bereich der maschinellen Intelligenz für fahrerlose Mobilität, Robotik und Profisport spezialisiert hat. Das Unternehmen wollte besser verstehen, wie Teams ihre Social-Media-Präsenz nutzen können, um erfolgreicher zu werden und ihre Fans zu binden.

Zu den Zielen des Projekts gehörten: 
  • Bewertung der Social-Media-Präsenz eines Fussballteams
  • Segmentierung ihrer Fanbasis 
  • Empfehlungen zu geben, wie man die Fangemeinde vergrössern und einbinden kann


Naemi, Joana und Mihaela wählten das Team von Manchester United aus, da es eine starke Präsenz in den sozialen Medien hat. Sie wählten Twitter als Social-Media-Plattform aus, da die Daten über eine API leicht zugänglich sind. Obwohl sie auch versuchten, Daten von anderen Social-Media-Plattformen zu erhalten, waren sie nicht erfolgreich, da es Probleme mit der API-Zugänglichkeit oder einen Mangel an nützlichen Informationen gab. Dennoch gelang es der Gruppe, Tweets und einige nützliche Informationen über die Twitter-API zu sammeln.

Manchester United hat fast 34 Millionen Follower auf Twitter. Es erwies sich jedoch als unmöglich, in der verfügbaren Zeit Informationen von allen Nutzern zu sammeln. Daher konzentrierten sich die Studenten darauf, die Tweets zu betrachten, anstatt direkt nach den Nutzerinformationen zu suchen. Unter Verwendung der ManUnited-Hashtags konnten Naemi, Joana und Mihaela etwa 1,4 Millionen Tweets über einen Zeitraum von sechs Monaten sammeln. Diese Tweets wurden von etwa 138 Tausend einzelnen Nutzern erstellt. 
Sowohl diese Tweets als auch die Nutzer waren Gegenstand der Analyse.

Mithilfe von snscrape, Tweepy und Twython in Kombination mit den gesammelten Informationen konnten sie eine Textvorverarbeitung und ein Wrangling durchführen. Anschliessend führten sie eine Stimmungsanalyse mit TextBlob, Themenmodellierung und Benutzersegmentierung mit BERTopic durch. Die Studenten erforschten andere NLP-Techniken wie LDA und word2vec, die sich als weniger erfolgreich erwiesen.




topic_modelling



Das obige Diagramm zeigt verschiedene Themen, die mit dem BERTopic-Modell erstellt wurden. Zum Beispiel gab es am 22. August 2022 ein Spiel mit Liverpool und die meisten Spikes in den sozialen Medien betrafen dieses Spiel. 

Durch den Einsatz verschiedener Modelle und Tools konnten die Studenten einige interessante Erkenntnisse über die Fangemeinde gewinnen. Sie entdeckten auch Themen und Wörter, die im Trend lagen und das grösste Engagement erzeugten. Ihr Modell und ihr Arbeitsprozess können zur Durchführung ähnlicher Analysen, speziell für soziale Medien, verwendet werden.


 

Fluence: Erkennung von Leistungsanomalien in Windkraftanlagen

Studenten: Alexander Tsibizov, Eva Polakova, Jamison Proctor, Stefan Schultze

Fluence, ein weltweit führender Anbieter von Energiespeichern und digitalen Anwendungen für erneuerbare Energien, bietet eine Plattform zur Überwachung von Windkraftanlagen an. Diese Plattform hilft Betreibern von Windkraftanlagen, die Anlagenleistung zu verstehen und Verbesserungsmöglichkeiten zu erkennen. Die Fähigkeit, Abweichungen vom Normalbetrieb der Turbinen in Windkraftanlagen automatisch zu erkennen, ist eine der gefragtesten Funktionen einer solchen Plattform. Allerdings kann es eine besondere Herausforderung sein, zu verstehen, was ein "normaler" Betrieb ist, da nicht alle Windturbinen und auch nicht alle Standorte von Windkraftanlagen gleich sind. Was an einem Standort oder einer Turbine als normaler Betrieb gilt, kann an einem anderen Standort suboptimal sein. Alexander, Eva, Jamison und Stefan nahmen die Herausforderung an, Anomalien in der Leistung von Windturbinen anhand der Betriebsdaten von Windturbinen aus einem einzigen Jahr zu ermitteln.

Das Team begann damit, anhand der Daten den Normalbetrieb für jede Turbine abzuleiten. Sie entwickelten mehrere Methoden, um dieses Ziel zu erreichen, die sowohl auf der statischen Analyse der historischen Turbinendaten als auch auf der dynamischen Definition des normalen Verhaltens im Laufe der Zeit basierten. Diese Ansätze lieferten eine grundlegende Definition von "normal", auf den Methoden zur Erkennung von Anomalien aufgebaut werden konnten. Allerdings basierten diese Definitionen auf einer Teilmenge von Daten, die "normal" sein könnten, aber nicht garantiert werden können. 

Auf maschinellem Lernen basierende Ansätze wurden ebenfalls untersucht, da sie auf die Definition von Anomalien spezialisiert sind, ohne das Normal zu verstehen. Von diesen Ansätzen erwies sich eine Kombination aus Isolation Forest und K-means Clustering als vielversprechend. Der Isolation Forest identifizierte anomale Daten, die dann mit Hilfe des K-Means-Clustering in zwei Gruppen geclustert wurden. Dieser Ansatz half bei der Identifizierung von Anomalien, bei denen eine eindeutige, anhaltende Änderung des Betriebsmodus vorlag. Leider war diese Methode nicht in der Lage, Anomalien bei unregelmässigem Betrieb zu erkennen oder wenn mehrere Fehlermodi im selben Datensatz vorhanden waren.

Alexander, Jamison, Eva und Stefan standen auch vor der Herausforderung, über die binäre Klassifizierung von Anomalien hinauszugehen. Die Betreiber von Windkraftanlagen sind besonders daran interessiert, verschiedene Arten von Anomalien zu unterscheiden. Diese Informationen helfen den Betreibern, schnell und präzise einzugreifen. Daher entwickelten die Studenten Ansätze zur Identifizierung von zwei anomalen Betriebsarten, der Drosselung und der Kurvenverschiebung. 

Eine Drosselung liegt vor, wenn die Leistung der Turbine manuell reduziert wird, um sie besser an den Bedarf des Stromnetzes anzupassen. Kurvenverschiebungen hingegen deuten darauf hin, dass der Windgeschwindigkeitssensor der Turbine nicht richtig funktioniert, so dass es den Anschein hat, dass die Leistung bei einer bestimmten Windgeschwindigkeit entweder zu hoch oder zu niedrig ist. Beide Arten von Anomalien stehen in deutlichem Zusammenhang mit dem Normalbetrieb, und es konnten Regeln erstellt werden, die das Vorhandensein dieser Anomalien erkennen.



Diagram



In der obigen Abbildung ist die Kurvenverschiebung auf der linken Seite und die Kürzung auf der rechten Seite zu sehen.

Das Team freute sich über seinen Beitrag zu diesem Thema und hofft, dass seine Arbeit einen Mehrwert für Fluence und den Auftrag seines Unternehmens darstellt.

 

LEDCity: Sensorkalibrierung, Auswertung von Temperatur- und Feuchtigkeitsdaten

Studenten: Anita Gaj, Avinash Chekuru, Ling Yee Khor  

LEDCity ist ein Startup-Unternehmen, das einzigartige Beleuchtungsprodukte anbietet, die die Energiekosten im Vergleich zu herkömmlichen Lampen um bis zu 90 % und im Vergleich zu herkömmlichen LEDs um bis zu 50 % senken. Dies wird erreicht, indem eine Reihe von Sensoren und ein Mikrocontroller in die Lampen eingebaut werden, so dass sie ihre Helligkeit dezentral selbst regulieren können. Darüber hinaus wird eine Vielzahl von Daten über Luftfeuchtigkeit, Temperatur und Belegung aufgezeichnet, so dass die Kunden fundierte Entscheidungen über Reinigung, Produktlagerung und Büronutzung treffen können und bei ungewöhnlichen Ereignissen wie Überschwemmungen oder Brandunfällen gewarnt werden. Der Betrieb der Beleuchtung selbst erzeugt jedoch Wärme, die sich auf die Sensormesswerte auswirkt, so dass die Messungen ungenau sind.

Ziel des Projekts ist die Entwicklung einer Data-Science-Pipeline zur Bereinigung und Analyse der Daten von den Feuchtigkeits- und Temperatursensoren in den Lampen. Anschliessend sollte ein Modell für maschinelles Lernen integriert werden, um die Messwerte mit einer Fehlergrenze von 1°C genau vorherzusagen und gleichzeitig eventuelle Selbststörungen zu korrigieren.

Mehrere Analysetools wurden in den Arbeitsablauf integriert: 
  • Durchführung explorativer Datenanalysen zur Verarbeitung
  • saubere Zeitreihendaten aus Experimenten
  • Aufdeckung von Anomalien
  • Identifizierung potenzieller systematischer Fehler


Mithilfe einer Korrelationsmatrix für das maschinelle Lernmodell wurden die wichtigsten Merkmale ausgewählt und redundante Merkmale, die die Ergebnisse verfälschen könnten, weggelassen. Als Ergebnis wurden vier verschiedene überwachte maschinelle Lernmodelle entwickelt, die auf PyCaret und traditionellen Regressionsmodellierungsansätzen basieren. Diese können verwendet werden, um das Experiment zu wiederholen oder dem Kunden zu ermöglichen, die tatsächlichen Temperatur- und Luftfeuchtigkeitsdaten vorherzusagen. 

Schliesslich wurde das Modell mit einer benutzerfreundlichen Streamlit-App integriert. Dies ermöglichte es den Kunden, Temperatur und Luftfeuchtigkeit für einzelne oder viele Lampen gleichzeitig vorherzusagen.



Diagram



Das obige Diagramm zeigt einen Vergleich zwischen den realen Messungen und den Vorhersagen unseres maschinellen Lernmodells für Test- und zufällige, ungesehene Daten mit robuster Leistung bei 0,2 C° Abweichung. 

Zusammengefasst:
  • Anita, Avinash und Ling Yee entwickelten eine Data-Science-Pipeline, um Lampensensordaten effizient zu verarbeiten.   
  • Das robuste überwachte maschinelle Lernmodell sagt die tatsächlichen Temperatur- und Luftfeuchtigkeitsdaten mit einer Abweichung von 0,2 C° “Grad Celsius” voraus
  • Die einfach zu bedienende Streamlit-App-Schnittstelle ermöglicht es Kunden, die wahren Werte aus der Ferne vorherzusagen 


In der Folge wurde die Gesamtproduktivität der Lampen verbessert, die Gesamtkosten wurden gesenkt und das Produkt wurde umweltfreundlicher. Angesichts des ständig steigenden globalen Energiebedarfs, der begrenzten Ressourcen und der aktuellen globalen Energiekrise ist es von entscheidender Bedeutung, innovative Lösungen zu finden oder bestehende zu verbessern. Diese KI-basierte digitale Lösung verbesserte die Gesamtproduktivität von Lampen und spielt eine wichtige Rolle in der Welt, in der wir heute leben.
 

Danke an alle für eine fantastische Zeit und eine tolle Projektphase! Constructor Academy wünscht allen unseren Data Science Absolventen das Beste für ihre Zukunft.

Möchtest du mehr über die Constructor Academy und technikbezogene Themen lesen? Dann finde hier weitere spannende Blogbeiträge.

Mehr Infos
Blog