Software Engineering für datengetriebene Projekte

12. April 2021, 10–17 Uhr

Ob Data Science, Data Analytics oder Data Engineering – in der Praxis beinhaltet das fast immer auch Softwareentwicklung. Datengetriebene Projekte beginnen oft klein und experimentell. Hier unterstützen interaktive Notebook-Umgebungen wie Jupyter den Data Scientist dabei, die Daten zu explorieren und schnell Ideen auszuprobieren.

Ergebnis ist eine mehr oder weniger aufgeräumte Sammlung von Notebooks und Python-Skripten. Eine solche Sammlung ist einerseits noch nicht bereit für den Einsatz in einer Produktivumgebung. Andererseits skaliert sie auch zunehmend schlechter, wenn Umfang und Komplexität des Workflows wachsen. Es empfiehlt sich also schon früh Best Practices aus dem Software Engineering in den Workflow zu integrieren. Dieser Workshop stellt dafür einige aktuelle Werkzeuge vor.

Vorkenntnisse

  • Solide Python-Programmierkenntnisse
  • Praxiserfahrung mit Data Science und ML-Projekten

Lernziele

  • Mehr Produktivität als Entwickler
  • Beherrschbare Komplexität
  • Reproduzierbare Ergebnisse
  • Weniger Distanz zwischen Prototyp- und Produktivimplementierung

Agenda

Allgemein
  • Jupyter Notebooks für Power User
  • Data Pipelines (mit Kedro)
  • Versionierung (mit git, DVC) für datengetriebene Workflows
Machine Learning speziell
  • scikit-learn für Power User: Pipelines-API produktiv einsetzen
  • reproduzierbare ML-Experimente (mit MLflow)

 

Speaker

 

Christian Staudt
Christian Staudt unterstützt als Freelance Data Scientist Auftraggeber bei Herausforderungen rund um Data Mining, Big Data und Machine Learning. Neben der Projektarbeit entwickelt er mit der Point 8 GmbH Trainings und coacht Teams in Sachen Methodik und Werkzeuge der Datenanalyse, die er schon während seiner Forschungstätigkeiten in der Informatik nutzte. Als Referent ist er in der Community um Python und Data Science aktiv.

enterPy-Newsletter

Ihr möchtet über die enterPy
auf dem Laufenden gehalten werden?

 

Anmelden