Data Science Abschlussprojekte Batch #20 (Zürich) und #1 (München)

von Ekaterina Butyugina

In diesem Blog-Beitrag stellen wir die Projekte vor, die unsere Data Science-Studenten des Batch #20 aus Zürich und der erste Batch #1 aus München im letzten Monat ihres dreimonatigen Programms abgeschlossen haben. Schau dir die Ergebnisse an, die sie in so kurzer Zeit erzielt haben.

Rolos: Die Trennung von Signal und Rauschen in der Kommunikation bei Autorennen

Studenten: Kai Hugenroth, Markus von der Luehe, Mounika Veeramalla, Kai Braeunig

Rolos will Wissenschaftlern helfen, ihre Produktivität zu steigern und exponentielle Fortschritte bei Forschungsprojekten zu erzielen, indem es die Möglichkeiten von Big Data nutzt, um die häufigsten Probleme von Forschern zu lösen und ihnen Zugang zu fortschrittlichen Technologien zu verschaffen. Der Kunde des Unternehmens, NASCAR, verfügt über 45 Funkkanäle für die Kommunikation zwischen Fahrern und Ingenieuren. Die Überwachung all dieser Kanäle ist jedoch eine ressourcenintensive Aufgabe. Daher wird ein automatisierter Echtzeit-Funkanalysedienst benötigt, der einen besseren Einblick ermöglicht.

Mounika, Kai B., Kai H. und Markus haben es sich zur Aufgabe gemacht, Textnachrichten zu klassifizieren und Schlüsselbotschaften in der Funkkommunikation von Autorennteams zu identifizieren. Ihr System soll den Ingenieuren helfen, sich auf Nachrichten mit hoher Priorität zu konzentrieren, indem es wichtige Informationen vom Rauschen unterscheidet.

Der Ansatz von Rolos und den Studenten umfasst die Aufzeichnung des Funkverkehrs in Echtzeit, die Audiotranskription jeder einzelnen Nachricht und den Einsatz von NLP-Maschinen- und Deep-Learning-Techniken zur Klassifizierung und Identifizierung von Schlüsselnachrichten. Das Ergebnis ist ein hocheffizientes System, das sicherstellt, dass sich die Ingenieure nur auf die wesentlichen Nachrichten konzentrieren, die das Rennen beeinflussen können. Dieses System kann 93 % der Nachrichten korrekt als wichtig oder unwichtig einstufen. 75 % aller Meldungen mit hoher Bedeutung wurden erkannt! Siehe das Bild unten.

Message_priority_Rolos

Die Vorteile dieses Systems sind zahlreich. Es erhöht die Sicherheit durch die Analyse von Meldungen in Echtzeit, bietet eine hohe Leistung bei der Klassifizierung von schnellen, zufälligen Eingaben und reduziert die Arbeitskosten. Das System liefert den Rennteams genauere Informationen und ermöglicht ihnen, fundierte Entscheidungen zu treffen, die ihre Leistung verbessern können.

Results_and_future_implementation_ROLOS

Für die Zukunft ist geplant, menschliches Feedback zu den Daten einzuholen, ein Live-Szenario für die Echtzeitoptimierung zu implementieren und weitere lernfähige Daten zu sammeln, um die Genauigkeit des Systems zu verbessern.

SIX: Der Merchant Master - ein Werkzeug zur Datenextraktion und -auswertung

Studenten: Daphne Teh, Ziba Mirza, Ronja Harder

Der Durchschnittsmensch trifft jeden Tag Tausende von Entscheidungen. Diese Entscheidungen werden oft intuitiv und mit begrenzten Informationen getroffen, unabhängig von ihrer Bedeutung. Im Informationszeitalter haben die Entscheidungsträger jedoch die Möglichkeit, eine Fülle von Daten zu sammeln. Dies kann sie in die Lage versetzen, strategische, folgenreiche Entscheidungen zu treffen, allerdings nur, wenn sie über die dafür erforderlichen Instrumente verfügen.

Das Team erhielt den Auftrag, genau dies für SIX Group zu tun. SIX verbindet die Finanzmärkte in der Schweiz und im Ausland und bietet Dienstleistungen in ihren vier Geschäftsbereichen an: Börsen, Wertpapierdienstleistungen, Bankdienstleistungen und Finanzinformationsdaten. Im Rahmen ihres Ziels, den Banken durchgängige Informationsdienstleistungen zu bieten, stellte SIX das Team vor die Aufgabe, Händlernamen aus einem Datensatz zu extrahieren, Informationen zu ermitteln und die Händler zu kategorisieren.

Angesichts der Qualität der Rohdaten und der Tatsache, dass es sich bei den meisten dieser Händler um kleine und mittlere Unternehmen handelte, würde das Projekt als Erfolg gewertet werden, wenn es dem Team gelänge:

den Extraktions-, Kategorisierungs- und Mining-Prozess zu automatisieren
Metadaten für 20 % der Händler in der Liste zu beschaffen

Das Team verfolgte eine dreigleisige Strategie und übertraf die Erwartungen bei weitem. Dies resultierte in:

91,6 % der Händlernamen wurden erfolgreich extrahiert
54,5 % der Händlernamen wurden mit Metadaten versehen
66,3 % der Händler wurden kategorisiert
Eine Anwendung, die die Extraktions-, Mining- und Kategorisierungsprozesse rationalisiert und automatisiert hat und die für zukünftige Datensätze mit anderen Datenpunkten verwendet werden kann

Um diese Ergebnisse zu erzielen, nutzte das Team eine Vielzahl von Tools, darunter Modelle zur Verarbeitung natürlicher Sprache, Metadatenplattformen und APIs.

Der erste Teil bestand in der Entwicklung eines Prozessors zur Entfernung von Rauschen aus dem Datensatz.

In der zweiten Phase wurden Google, Open Street Maps und das offizielle Handelsregister der Schweizer Regierung genutzt, um Daten zu sammeln. Diese Quellen wurden so ausgewählt, dass sie verbraucherrelevante Daten, Geodaten und offizielle Informationen enthielten, die zu Überprüfungszwecken weiterverwendet werden konnten. Die Ergebnisse sind in der folgenden Abbildung zu sehen, in der Sie die Data-Mining-Quellen mit der Erfolgsquote finden:

First_second_thrid_prong

Die dritte Säule nutzte die Ergebnisse verschiedener APIs für die Spracherkennung und -übersetzung in Kombination mit einer kuratierten Liste kontextspezifischer Markennamen, um die Händlernamen zu aggregieren und Kategorien zuzuordnen.

Schliesslich entwickelte das Team eine App auf Streamlit, die diese Prozesse integrierte und SIX durch die Erstellung von Visualisierungen wie einer Karte, die die Standorte der Händler zeigt, zusätzliche Analysen lieferte:

Location_of_activity

Durch diese Schritte verwandelte das Team eine Liste von Datensätzen in einen hochgradig angereicherten Datensatz und schuf ein Tool, das systematisch saubere, qualitativ hochwertige Daten über wenig bekannte Unternehmen produzieren und wertvolle Erkenntnisse liefern kann.

NeatLeaf: Bildbasierte Anomalie-Erkennung für eine landwirtschaftliche Anwendung

Studenten: Agustin Rojo Serrano, Michael Schlathölter, Jonas von Kobylinski, Cuong Huy Nguyen

NeatLeaf hilft Züchtern in Innenräumen und Gewächshäusern, ihre Erträge zu steigern, indem sie die Pflanzen mit fortschrittlicher Technologie und KI genau überwachen. Der Roboter Spyder fährt durch die Anbaufläche und nimmt dreimal täglich Bilder von den Pflanzen auf. Für eine trainierte Kultur analysiert ein KI-Algorithmus die Bilder, sucht nach Pflanzenanomalien und markiert diese, wenn sie entdeckt werden. Die frühzeitige Erkennung von Pflanzenstress ist von entscheidender Bedeutung für die Bekämpfung von Schädlingen oder anderen Krankheiten und erhöht die Produktivität der Anlagen durch weniger Ernteausfälle und weniger schwere Zwischenfälle. Jedes Bild, das zum Trainieren des KI-Modells verwendet wird, durchläuft einen Beschriftungsprozess, bei dem die Experten feststellen, ob es Krankheiten enthält, was für das Unternehmen einen hohen Arbeits- und Kostenaufwand bedeutet. Daher wird die Datenbank durch Bildvergrösserung künstlich vergrössert.

Michael, Jonas, Agustin und Coung hatten Zugang zu mehr als 13.000 Bildern, einem bestehenden KI-Modell in Pytorch, das sie modifizieren konnten, und einigen GPUs, die über einen ssH-Tunnel zugänglich waren, um Experimente durchzuführen. Ziel war es, die Auswirkungen von Rauschen auf die Modellleistung zu untersuchen.

Dazu wurden die verschiedenen vorgeschlagenen Rauscharten sowie einige andere verfügbare Techniken zur Qualitätsminderung untersucht. Bevor diese willkürlich auf die Bilder angewendet wurden, mussten geeignete Grenzwerte festgelegt werden, da zu viel Rauschen die Merkmale der Bilder verdecken kann. Da die Häufigkeit der Anomalien nicht gleichmässig verteilt ist, wurde der Datensatz ausgeglichen, indem einige Bilder mit seltenen Kennzeichnungen mehrfach hinzugefügt wurden.

Unbalanced_dataset

Der f1-Wert stieg leicht von 81,7 % auf 82,2 %. Durch die Verwendung von SHAP-Gradienten zur Visualisierung des Beschriftungsprozesses wird deutlich, dass die rauschbasierten Modelle bei der Beschriftung grössere Bereiche berücksichtigen, wodurch sie sicherer in ihren Entscheidungen werden.

Anomaly_Detection_for_yellowing

Alles in allem ist die KI recht zuverlässig bei der Erkennung von Anomalien, die so klein sind wie die vergilbten Spitzen. Sie unterstützen menschliche Arbeitskräfte, auch wenn sie diese noch nicht vollständig ersetzen können, und sind in der Lage, grosse Gebiete zu erfassen.

ReoR20: Niederschlagsvorhersage mit Regenmessern und Fernerkundung

Studenten: Elizaveta Lakimenko, Lucas Pahlisch, Marco Ferrari, Alexej Khalilzada

Die durch den Klimawandel verursachten Veränderungen der Niederschlagsmuster und die zunehmende Verstädterung in hochwassergefährdeten Gebieten haben in letzter Zeit die Häufigkeit und Schwere von Überschwemmungen in vielen Teilen der Welt erhöht [1].

ReoR20 entwickelt die nächste Generation von Hochwasservorhersagemodellen, die den Akteuren helfen sollen, das Risiko von Hochwasserkatastrophen mit hoher räumlicher und zeitlicher Auflösung besser zu bewältigen. Um dies zu erreichen, benötigen sie immer bessere Eingangsdaten über die Wetterbedingungen, die in ihr Modell einfliessen.

Ziel dieses Projekts war es, ein maschinelles Lernmodell zu entwickeln, das anhand von Regenschreiberdaten die Niederschlagsmenge in einem beliebigen Wassereinzugsgebiet der angrenzenden Vereinigten Staaten vorhersagen kann. Elizaveta, Alexej, Lucas und Marco erhielten die Messwerte der Regenmesser für die Jahre 2010 bis 2021 sowie eine Karte der Wassereinzugsgebiete, in denen sie sich befanden. Ausserdem erhielten sie geografische Informationen, die das Einzugsgebiet und den Standort der Regenmesser beschrieben. Anhand dieser Informationen sollten sie Radarniederschlagsmessungen vorhersagen, die als zuverlässigere Quelle für Niederschlagsdaten gelten.

Nachdem sie mehrere Ansätze ausprobiert hatten, einigten sie sich auf ein Modell, das aggregierte statistische Informationen über jeden Tag für jedes Einzugsgebiet in den USA verwendet. Zusätzlich wurde jedes Wassereinzugsgebiet in 5 Höhenzonen unterteilt, und für jede Zone wurden die gleichen aggregierten statistischen Informationen berechnet. Diese Informationen wurden als Input für das Training eines maschinellen Lernmodells verwendet.

Das Team erstellte sieben verschiedene Modelle, die auf den wichtigsten Wassereinzugsgebieten in den USA basieren, und die Leistung des Modells war bei jedem unterschiedlich. Im Durchschnitt wurde ein R2-Wert von 0,55 erreicht. Insgesamt ist das Modell in der Lage, gut vorherzusagen, wann ein Regenereignis eintreten wird, aber die Grössenordnung ist der Punkt, an dem das Modell verbessert werden könnte.

Rain_gauge_data_for_one_catchment:_target_diff

Rain_gauge_data_for_one_catchment:_target_diff

[1] IPCC Managing the Risks of Extreme Events and Disasters to Advance Climate Change Adaptation (eds Field, C. B. et al.) (Cambridge Univ. Press, 2012).

Vielen Dank an alle für eine fantastische Partnerschaft und eine tolle Projektzeit! Wir von Constructor Academy wünschen unseren Data Science-Absolventen viel Glück.

Bring deine Karriere auf die nächste Stufe mit dem Data Science Bootcamp von Constructor Academy

Bist du interessiert an einer sehr anspruchsvollen, angesehenen und finanziell lohnenden Karriere interessiert? Dann ist das Data Science Bootcamp von Constructor Academy genau das Richtige für dich.

Das Ziel des Bootcamps ist es, dir die Techniken und Technologien für die Verarbeitung von realen Daten beizubringen, und es wird sowohl in Vollzeit (12 Wochen) als auch in Teilzeit (22 Wochen) angeboten. Während des Bootcamps lernst du Technologien wie maschinelles Lernen, natürliche Sprachverarbeitung (NLP), Python, Deep Learning, Datenvisualisierung und R.

Oder beginn deine Reise mit unserer kostenlosen Einführung in die Datenwissenschaft. Klicke einfach hier, um mehr zu erfahren.

Möchtest du mehr über die Constructor Academy und technikbezogene Themen lesen? Dann finde hier weitere spannende Blogbeiträge.

Mehr Infos