Datenwissenschaft Abschlussprojekte Batch #22

von Ekaterina Butyugina

Verarbeitung natürlicher Sprache und abstrakte Vis
Wir möchten uns an dieser Stelle ganz herzlich bei allen Studierenden bedanken, die im Frühjahr zu uns gestoßen sind. Sie haben sich mit Herz und Seele in den Kurs und die Abschlussprojekte eingebracht.

In nur drei kurzen Monaten haben die enthusiastischen Data-Science-Enthusiasten aus Batch #21 in Zürich und die erfahrene dritte Kohorte aus München bewundernswerte Fortschritte in einer Vielzahl anspruchsvoller Projekte gemacht. Ihre herausragenden Fähigkeiten und ihr unermüdlicher Einsatz waren deutlich sichtbar. Diesmal hat HP in Zusammenarbeit mit Friedrich Stahl durch die Bereitstellung von zwei exklusiven Z-by-HP-Workstations wesentlich zum Erfolg der Studierenden beigetragen.

Alle Projekte verwenden Deep-Learning-Modelle und erfordern umfangreiche Berechnungen. Daher benötigten wir leistungsstarke Maschinen, um die lizenzfreien Modelle zu trainieren. Dank der Unterstützung von HP und Friedrich Stahl hatten unsere Studierenden uneingeschränkten Zugang zu diesen Ressourcen. Dies vereinfachte den Arbeitsprozess erheblich und ermöglichte ein effizienteres Lernen und Entwickeln von Projekten.

Auch gegenüber unseren Mitbewerbern haben wir durch diese Maschinen einen erheblichen Vorteil. Wir laden Sie herzlich ein, das beeindruckende Potenzial von Data Science hautnah zu erleben, während unsere Studierenden mutig Grenzen überschreiten, unschätzbare Erkenntnisse gewinnen und einen nachhaltigen und bleibenden Eindruck hinterlassen.
 
 

Flexible Litter Database

Studenten: Jose Carlos Araujo Acuña, Holly L. Capelo, Mehran Chowdhury, Rafael Luech

Cortexia nutzt Computer Vision, um Abfälle in städtischen Gebieten zu erkennen, was zu einer effizienten (kosteneffektiven) Planung der Reinigungswege führt, um optimale Sauberkeitsstandards zu erreichen. Obwohl bereits eine Bilderkennungsmethode für diesen Zweck vorhanden ist, könnten die Modelle durch die Fähigkeit zur sorgfältigen Ausschneidung der identifizierbaren Objekte verbessert werden, um solche Ausschnitte (Segmentierungen) zur Erweiterung der Daten zu verwenden, die für das weitere Training verwendet werden können.

Das Ziel des Projekts ist es, eine Methode zur automatisierten Erstellung von Bildsegmentierungen zu etablieren. Die Studierenden haben das öffentlich verfügbare, vortrainierte Modell von Meta Research verwendet, bekannt als "Segment Anything Model" (SAM). Sie verwendeten die Modellversion und den entsprechenden Checkpoint mit dem grössten neuronalen Netzwerk-Grundgerüst. Als Eingabe arbeiteten sie mit über 7.000 annotierten Bildern, wobei sie Begrenzungsrahmen als Segmentierungsanweisung verwendeten und so bis zu 80 Segmentierungen pro Bild erzielten.


Automated segmentation method


Für eine spezifische Gruppe von etwa 250 Bildern hatten sie manuell erstellte Umrisse zur Verfügung. Bei dem Vergleich der automatisch generierten Umrisse mit diesen manuellen wurde festgestellt, dass Jose, Mehran, Holy und Rafael konstant hohe Punktzahlen erzielten, insbesondere bei Verwendung von Metriken wie IOU und DICE. Interessanterweise schnitt die automatische Methode zur Umrandung in vielen Fällen sogar besser ab als die manuell erstellten Umrisse. Sie zeichnete sich besonders darin aus, feine Details an den Bildrändern einzufangen. Sie bemerkten auch ein Muster: je größer die Objekte waren, umso genauer war die Erkennungsquote. 

Jose, Mehran, Holy und Rafael haben mit Feinabstimmung des Modells anhand von domänenspezifischen Bildern experimentiert, aber ihre vorläufigen Ergebnisse zeigten keine Verbesserung gegenüber dem Standardmodell, das gut bei der einfachen Aufgabe der Begrenzungsrahmensegmentierung abschneidet. Weitere Erweiterungen der Feinabstimmung könnten das Training mit zusätzlichen Arten von Aufforderungen wie Label-ID als Text umfassen.
 
 

Frag Fredy: KI-unterstützter Q&A-Chat-Bot

Studenten: Ena Dewan, Rena (Xinyue) Pan und Liran

Alturos Destination ist ein Unternehmen, das sich darauf spezialisiert hat, Touristenzielen bei der Umsetzung ihrer digitalen Verkaufsstrategien zu helfen. Fredy wird ein Chatbot, der Fragen zum Alturos-Betriebssystem und anderen Angeboten auf der Grundlage der Unternehmensdaten beantwortet. Die Idee ist, Alturos-Kunden und Mitarbeitern sofortige Unterstützung zu bieten.

Das Team begann mit den englischen Schulungsmaterialien des Unternehmens. Unter Verwendung eines Grundmodells erstellten sie eine erste Version von Fredy. Anschließend integrierten sie große Sprachmodelle, um verbesserte Versionen von Fredy zu entwerfen. Die endgültigen Auswahlentscheidungen wurden nach einer Leistungsbeurteilung getroffen.
Die Erstellung des Grundmodells beinhaltete die Umwandlung von Dokumenten in Vektoren, um die Messung der Entfernungen zwischen Fragen und jedem Datenelement zu erleichtern. Die passensten Ergebnisse wurden ausgewählt, neu bewertet und das Beste als Antwort verwendet. Für beide Prozesse wurde der Transformer herangezogen.

Ein Beispiel ist:
  • Hallo Fredy, wo kann ich eine Kontaktperson hinzufügen?
  • Die Kontaktperson ist die Person, die mit meinem Dienst verbunden ist... 

Wenn die Antwort nicht explizit im Korpus vorhanden ist, wird Baby Fredy nicht in der Lage sein, diese für den Kunden zu synthetisieren. 

Fredys Verbesserung bestand darin, den Chatbot in große Sprachmodelle (LLM) einzuführen. Im Wesentlichen handelt es sich bei LLM um einen KI-Algorithmus, der auf tiefem Lernen basiert, der auf umfangreichen Datensätzen trainiert ist und in der Lage ist, Antworten zusammenzufassen sowie zu synthetisieren und generative KI-Fähigkeiten zu erlangen. 

Ena, Rena und Liran entwickelten ein Hybridmodell, das kostenlose Open-Source- und kostenpflichtige OpenAI-LLM-Modelle kombinierte: Das HuggingFace Instruct-xl-Modell (Open Source) wurde verwendet, um Rohdaten zu verarbeiten und Einbettungen für den englischen Korpus zu erstellen. ChatGPT-4 (OpenAI, Premium-Version, kostenpflichtig) wurde verwendet, um die Antworten zu generieren. Die Vorteile dieses Hybridmodells sind die Kosteneffizienz und eine beeindruckende Genauigkeitsrate von 78%. 

Eine andere Version, Flan-t5 Fredy, verwendete Open-Source-Werkzeuge, lieferte jedoch weniger menschenähnliche Antworten, obwohl sie ideal für diejenigen Nutzer wäre, welche die Privatsphäre priorisieren. 

Es gab auch andere Versuche, wie Flam-Alpaka Fredy und OpenAI Fredy, aber ihre Leistungen konnten  - in Bezug auf die Genauigkeit - nicht mit den beiden Spitzenmodellen mithalten. In Bezug auf Leistungsbewertungen sind manuelle Bewertungen optimal, jedoch sehr arbeitsintensiv.

Das Team hat auch quantitative Methoden erkundet, um die Ähnlichkeit zwischen generierten Antworten und Referenzpunkten zu messen.


Fredy evolution


Eine WebUI wurde mithilfe von Hugging Face Spaces und Gradio eingerichtet. 

In nur 3 Wochen hat Fredy die Generierung menschenähnlicher Antworten gemeistert. Es ist auch mehrsprachig. Anfangs auf Englisch ausgerichtet, kann es jetzt viele Sprachen über den Google Übersetzer bedienen und kontextsensitive Antworten bieten. 

Zukünftige Ziele umfassen die Verfeinerung von Fredy mit mehr Daten, die Verbesserung der mehrsprachigen Fähigkeiten mit dem Ziel der Erreichung akkurater Antworten.

 



Nachhaltigkeitsberichts-Bewertungen

Studenten: Claudio und Claudio

Engageability führt alle zwei bis drei Jahre eine Benchmark-Analyse namens "Focused Reporting" der Nachhaltigkeitsberichte Schweizer Unternehmen durch (2021: 151 Unternehmen). Dabei erfolgt eine manuelle Prüfung einer Checkliste zahlreicher Kriterien und der anschließenden Bewertung, inwieweit Berichte ihrer Kunden (bis zu 200 Seiten) diesen Kriterien entsprechen (jedes Kriterium wird mit ja/nein/unsicher bewertet). Solche Kriterien ähneln beispielsweise der Frage: "Werden Metriken von der Organisation verwendet, um klimabezogene Risiken und Chancen im Einklang mit ihrer Strategie und ihrem Risikomanagementprozess zu bewerten?"

Das Ziel der Zusammenarbeit war es, die Bewertung der Nachhaltigkeitsberichte mithilfe von KI zu automatisieren, um dem Unternehmen Zeit zu sparen. Daher schrieben die Studierenden einen Code, der zwei Eingabedateien hat a) den Bericht als PDF und b) die Bewertungskriterien als XLSX. In dem Code bewertet ein KI-Modell, ob die Kriterien aus der XLSX-Datei im PDF erfüllt sind, und gibt für jedes Kriterium ein Ergebnis in einer anderen XLSX-Datei aus.

Um das Ziel zu erreichen, testeten die Teilnehmer mehrere große Sprachmodelle wie GPT, das auch in ChatGPT verwendet wird. Insbesondere verglichen sie lokale Open-Source-Modelle mit Online-Modellen. Ziel davon war zu ermitteln, ob ein Modell auf einem lokalen Computer, das sicherer ist, genügt,  oder ob ein Online-Modell verwenden werden sollte, das weniger sicher  jedoch geringere Hardwareanforderungen hat (die Hardware befindet sich in der Cloud).

Herausforderungen, waren zum Beispiel die Komplexität der Kriterien, da diese manchmal subjektiv oder vage waren, oder die Kriterien erforderten eine sehr spezifische Detailebene im Bericht. Auch das Anpassen der Aufforderungen war ein kniffliger Teil. Hierbei mussten sie herausfinden, welche Schwelle das Modell berücksichtigen sollte, um mit unsicher oder ja/nein zu antworten.

Die Ergebnisse zeigten, dass ihr Modell durchschnittlich etwa 65% der Kriterien korrekt bewerten konnte, basierend auf den 6 (bereitgestellten) Berichten, die sie testen konnten. Allerdings basierten die Bewertungen nicht immer auf der richtigen Grundlage. Speziell gab das Modell auch an, auf welcher Seite und in welchem Abschnitt es seine Antwort begründete, was nicht immer mit der manuellen Vorgehensweise von Engageability übereinstimmte.

Zusammenfassend bewerteten die Modelle nicht nur etwa 65% der Kriterien korrekt (ja/nein/unsicher), sondern sie sind auch hilfreich, um die Berichte schneller zu bewerten als dies manuell möglich wäre, aufgrund der Hinweise der Modelle, auf welche Seite man schauen sollte usw.


Client sustainability diagram




Zukünftige Überlegungen sind, dass die Modelle mit mehr Berichten getestet werden müssen, um repräsentative Ergebnisse zu erhalten. Außerdem könnten die Modelle verbessert werden, indem sie mit neueren Modellen getestet werden, auf die die Studenten bisher keinen Zugang hatten (d.h. GPT-4), oder indem die Modelle mit mehr Berichten trainiert werden, als Engageability bisher zur Verfügung stellen konnte.

 


Ein Schritt voraus: Erkennung ungewöhnlicher menschlicher Bewegungen

Studenten: Alaa Elshorbagy, Vincent von Zitzewitz und Jonas Vossemer

QualityMinds GmbH bietet Dienstleistungen in der Qualitätssicherung und Prüfung von Software- und Machine-Learning-Systemen an. Das Unternehmen ist auch spezialisiert auf Softwaretechnik, Anforderungsmanagement, maschinelles Lernen und KI-Tests, einschließlich der Prüfung von maschinellem Lernen für autonomes Fahren.

Im Rahmen des Projekts mit QualityMinds hatten unsere Studiernden die Möglichkeit, in die faszinierende Welt der Vorhersage menschlicher Bewegungen einzutauchen. Diese Vorhersage bezieht sich auf zukünftige menschliche Bewegungen. Diese Vorhersage beruht auf der Grundlage einer zeitlichen Abfolge gegebener Körperpositionen und der neuesten Bewegungen. QualityMinds verwendet fortschrittliche Deep Neural Networks (Graph Convolution Network), um die Aktionen einer Person vorherzusagen und dabei eine Sekunde in die Zukunft zu blicken. Für einige Aktionen ist die Vorhersage schlecht, was zur Formulierung des Projekts führte.

Das Hauptziel bestand darin, Anomalien in menschlichen Bewegungen zu quantifizieren, da diese ungewöhnlichen Bewegungen Herausforderungen für die Vorhersagemodelle darstellen. Um dies zu erreichen, verwendeten Alaa, Vincent und Jonas den öffentlichen Human 3.6M-Datensatz, der 3,6 Millionen Abfolgen menschlicher Bewegungen enthält.

Dann verwendeten sie vier unterschiedliche Ausreißererkennungsmodelle, die jeweils eine einzigartige Perspektive zur Identifizierung von Ausreißern boten. Zur Validierung der Ergebnisse verglichen die Studenten die Vorhersagefehler aus den Modellen zur Vorhersage menschlicher Bewegungen mit den identifizierten Ausreißern. Damit wiesen sie die direkte Verbindung zwischen Ausreißern und fehlgeschlagenen Bewegungsvorhersagen nach.

Es gab drei Hauptergebnisse aus unserem dem Projekt, die alle darauf abzielten, QualityMinds zu befähigen, ihre Fähigkeiten zur Bewegungsvorhersage zu verbessern:
  • Outlier Detection App - ein interaktives Werkzeug für die flexible Analyse von Ausreißersequenzen;
  • Outlier Validation App - um eine Korrelation zwischen dem Anomaliegrad einer Bewegungssequenz (Präzisionsscore) und ihrem Vorhersagefehler zu finden;
  • Kinematisches Vergleichstool - um Inliers und Outliers für spezifische Aktionen zu vergleichen und zu visualisieren, wie z.B. Gehen oder Essen basierend auf kinematischen Schlüsselmerkmalen wie Gelenkgeschwindigkeit und Beschleunigung.


The outlier detection app


Zusammenfassend hat unsere Zusammenarbeit mit QualityMinds sie mit den Werkzeugen ausgestattet, um die Vorhersage der menschlichen Bewegung für autonomes Fahren und andere Anwendungen zu verbessern. Durch die Integration von Informationen zu identifizierten Ausreißern kann QualityMinds die Bewegungsvorhersagemodelle für die Mensch-Roboter-Interaktion und autonome Systeme verbessern und somit eine sicherere und effizientere Zukunft für alle gewährleisten. Das Team hat vor, diese Erkenntnisse auszuweiten und auf andere öffentliche Datensätze zu verallgemeinern. Alaa, Vincent und Jonas sind stolz darauf, Teil dieses Projekts gewesen zu sein, und freuen sich darauf, die Auswirkungen ihrer Arbeit im Bereich der autonomen Technologie zu sehen.

 
 

Erweitere deine Karriere mit dem hochmodernen Data Science Bootcamp der Constructor Academy.

Bist du bereit, eine Welt voller grenzenloser Möglichkeiten in einer hochanspruchsvollen, geachteten und finanziell sicheren Karriere zu entdecken? Dann nimm teil an dem Data Science Bootcamp, das von der Constructor Academy angeboten wird.

Entwickelt, um dich mit den wesentlichen Techniken und Technologien auszustatten, um die Kraft von realen Daten zu nutzen, bietet unser Bootcamp zwei flexible Optionen an: Vollzeit (12 Wochen) und Teilzeit (22 Wochen). Während dieser intensiven Erfahrung wirst du transformative Technologien beherrschen, einschließlich Python, maschinellem Lernen, Natural Language Processing (NLP),  Deep Learning und Datenvisualisierung.

Aber das ist noch nicht alles! 
Starte deine Reise in die Welt der Data Science mit unserer kostenlosen Einführung in das fesselnde Reich der Datenwissenschaft. Klicke einfach hier, um auf diese wertvolle Ressource zuzugreifen und noch heute mit deiner Erkundung zu beginnen.

Mach dich bereit, eine Zukunft voller endloser Möglichkeiten zu erleben. Die Constructor Academy ist entschlossen, angehende Datenwissenschaftler wie dich zu befähigen, dein wahres Potenzial zu entfalten und den Weg für beispiellosen Erfolg zu ebnen. Begleite uns auf diesem aufregenden Abenteuer und lassen uns gemeinsam die Zukunft der Datenwissenschaft gestalten.
 

Möchtest du mehr über die Constructor Academy und technikbezogene Themen lesen? Dann finde hier weitere spannende Blogbeiträge.

Mehr Infos
Blog