Web-Crawling mit Python

Web Crawling ist zwar schon so alt wie das World Wide Web, jedoch gewinnt es dank des Aufstiegs von Machine Learning in Verbindung mit dem Natural Language Processing wieder an größerer Bedeutung. Das hat unter anderem folgende Gründe:

  • Web Crawling ist in der Lage, eine große Menge an Daten für Machine Learning zu sammeln.
  • Größere Unternehmen nutzen Crawling zunehmend dafür, die (Text-)Bewertungen für ihre Produkte aus verschiedenen Internetplattformen zu extrahieren und einen Einblick zu bekommen, aus welchen Gründen diese den Kunden gefallen oder missfallen (dies ist ebenfalls auf die Produkte der Konkurrenz anwendbar).
  • Die aus dem Web gewonnenen Daten können neue Einblicke in das Marktgeschehen, die entstehenden Trends und neue Produkte geben.
  • Ebenfalls können Firmen damit betrügerische Handlungen aufspüren; beispielsweise den Missbrauch der eigenen Marke. Außerdem kann ein Unternehmen damit automatisiert seine Webseite hinsichtlich Verfügbarkeit oder Manipulation überwachen; etwa durch einen Hackerangriff.

Vorkenntnisse

  • Grundkenntnisse in Python
  • Grundkenntnisse in HTML
  • erste Erfahrung in der objektorientierten Programmierung
  • Grundverständnis der HTTP Requests
  • Idealerweise Grundkenntnisse in Regular Expressions

Lernziele

  • Überblick über gängige Python Crawling Frameworks und bekommen und in der Lage sein das passende Framework auszuwählen
  • verschiedene Vorgehensweisen beim Web Crawling (Listen-basiert, Sitemap-basiert etc.) kennenlernen
  • in der Lage sein, ein auf Scrapy basierendes Crawling-Projekt zu erstellen, zu starten und zu überwachen
  • HTML-Elemente mithilfe von XPath zu selektieren
  • Inhalt einer robots.txt einer Webseite verstehen
  • gängige Fehler kennenlernen und wissen, wie diese zu vermeiden sind

Speaker

 

Yevgen Papernyk
Yevgen Papernyk ist studierter Informatiker (M.Sc.) und verfügt über langjährige Berufserfahrung mit Python im Bereich Web Crawling – vorrangig mit dem Scrapy-Framework, aber auch mit Selenium und einfachen Python-Requests. Tiefergehende Kenntnisse mit dem Scrapy-Framework sammelte Yevgen im Zuge der Erweiterung des Frameworks für firmeninterne Zwecke. Als Co-Organisator und aktives Mitglied der Python User Group Nürnberg engagiert er sich in der Ausbildung von Python-Einsteigern und hält firmeninterne Vorträge.

enterPy-Newsletter

Ihr möchtet über die enterPy
auf dem Laufenden gehalten werden?

 

Anmelden