Bei Microsoft zum Hands-On Workshop: Azure Advanced Analytics und Data Science Tools
Neulich im Microsoft Lab zum Hands-On Termin: Azure Machine Learning Studio und Workbench, Azure (Data Science) Virtual Machine, Microsoft Open R und mehr. Gemeinsam mit meinem Kollegen Michael König bei Microsoft. Die Größe der Community hält sich in Grenzen (9 Teilnehmer inkl. Tutor).
Der Gegenstand: Anwendung von Machine Learning in Data Science und Data Analytics
Für Data Analytics können nun Machine Learning Systeme in ihrer speziellen Eigenschaft angewendet werden, auf der Basis von Daten selbstständig zu lernen. Data Science ist dabei ein Überbegriff, der Data Analytics beinhaltet. Während man von einem Data Scientist erwarten kann, auf der Basis von Daten Prognosen zu liefern, muss der Datenanalyst aussagekräftige und belastbare Daten aus verschiedenen Datenquellen aggregieren. Man kann sich vorstellen, wie anspruchsvoll eine mögliche Stellendefinition ausfallen wird, wenn Data Scientist und Data Analyst idealerweise in einer Person zusammentreffen und diese noch top IT Skills besitzen sollte. Trotzdem ist es durch neue Cloud-Services heute möglich, die ersten Schritte mit bescheideneren Skills vorzunehmen und durchaus zu nützlichen Erkenntnissen zu gelangen. So viel als Vorwort. Hier ein kurzer Abriss des ersten Teils unseres Hands-On Tages bei Microsoft.
Für eine erste Annäherung ans Thema Machine Learning bietet sich der Blogbeitrag „AI Basics: Machine Learning“ von Georg Selig an.
Die Azure Advanced Analytics Platform
Azure Machine Learning ist ein Teil der Platform Services Subkategorie „Analytics&ioT“. Neben Compute, Web and Mobile, Developer Services, Integration und einigen mehr.
Advanced Analytics kommt dort ins Spiel, wo es darum geht große Mengen von Daten in aussagekräftige Information zu verwandeln. Für dieses Ziel stellt die Azure Advanced Analytics Platform diverse Anwendungen und Services zur Verfügung. Diese können in vier Säulen eingeteilt werden (siehe Grafik).
Wie in der Abbildung ersichtlich, bildet das Thema Machine Learning und Analytics eine dieser 4 Säulen. Einmal einen Workspace eingerichtet, kann man schnell ein „Blank Experiment“ anlegen (es gibt auch eine Auswahl an Samples) und eine einfache (oder komplexere) ML Architektur per Drag-and-drop zusammenstellen. Soweit ein Vorgang, der beim HATAHET Webinar zum Thema Machine Learning ausführlich erläutert wurde (allerdings an einem etwas komplexeren Beispiel als bei unserem Hands-On Tag). Wer genau nachvollziehen möchte, wie man ein solches „Experiment“ im Machine Learning Studio durchgehend anlegt, findet eine entsprechende Beschreibung im Blogbeitrag „Machine Learning Studio von Microsoft“ von Michael König.
Interessant an dieser einfachen und schnellen Art Daten zu verarbeiten, ist der einfache Weg diese Trainingsdaten anschließend mit wenigen Klicks bereitzustellen, beispielsweise in Excel. Besonders hervorzuheben ist hierbei, das predictive Web Service, welches benutzt werden kann um Daten vorhersagen zu lassen. Auch diese Schritte sind in einem Blogbeitrag „Ein eigenes Machine Learning WebService aufrufen, jetzt mit Excel“ von Michael König genauer beschrieben.
Hinweis
Für EntwicklerInnen ist hervorzuheben, dass man im Web Service Bereich des Machine Learning Studios unter „Request/Response“ zu einer API Beschreibung kommt, in welcher man den fertigen Code findet, welcher in die jeweils eigene Applikation eingebunden werden kann. Und das nicht nur in C# sondern auch in Python und R, die für Data Scientists unentbehrlich sind.
Erste Erkenntnis
Der erste Hands-On Part unseres Tages bei Microsoft erweist sich also formal identisch zu jenen Ausführungen in unseren Blog-Artikeln zum Thema bzw. den Inhalten aus unserem Machine Learning Webinar vom 25. Juli 2018. Aus diesem Grund sind in diesem Beitrag die einzelnen Schritte nicht nochmals nachvollzogen und abgebildet. Das spart mir einiges an Zeit und Screenshots – danke Michi!
Azure Machine Learning Studio nur für Analytics Profis und EntwicklerInnen? NEIN!
Ein erster Einblick ist jedenfalls schnell und unkompliziert möglich. Out-of-the-box Modelle machen es möglich, sehr schnell erste interessante Visualisierungen von Daten zu erzeugen und Auswirkungen durch Veränderungen der Datenbasis live zu beobachten. Interessante Muster und Korrelationen können so sehr schnell entdeckt werden. Oder anders gesagt, die entsprechenden Dienste machen es möglich ohne konkrete Anwendungsideen, sich ersten beispielhaften Anwendungen zu nähern und sich über den Nutzen von Machine Learning Gedanken zu machen. Und das ohne Programmieren!
Azure Machine Learning Studio nur für Analytics Profis und EntwicklerInnen? JA!
Der kleine Kreis der Teilnehmer und die doch schnell ins Detail führenden Diskussionen haben gezeigt, dass trotz der einfachen und schnellen Verfügbarkeit der verschiedenen Technologien und Services, sehr schnell eine Grenze erreicht wird, bei welcher tieferes Fachwissen zwingend wird. Die technische Umgebung in der Advanced Analytics Plattform bedingt eine hohe Affinität für die gesamte technische Infrastruktur, in welcher solche Systeme angesiedelt sind. Gerade in der qualifizierten Anwendung der Möglichkeiten durch Machine Learning ist ein tiefes Verständnis der mathematischen Konzepte ebenso entscheidend, wie Kenntnisse in Data Science. Für die Umsetzung professioneller Lösungen ist jedenfalls Profiarbeit nötig.
FAZIT
Das Machine Learning Studio von Microsoft bietet einen schnellen und unkomplizierten Einstieg. Auch für nicht Data Scientists bietet sich die Möglichkeit unterschiedliche ML Modelle nicht nur kennenzulernen, sondern gleich erste Erfahrungen damit zu machen. Es ist damit möglich, einen Machine Learning Algorithmus, den man selbst nicht bauen könnte, umfangreich in Einsatz zu bringen und sofort zu nutzen. Das bedeutet, man kann ein solches Web Service erstellen und durch das Machine Learning Service nutzen und direkt bereitzustellen.
Letztens gilt für die Nutzung der Services auf der Microsoft Azure Plattform dasselbe, wie für ML Modelle und deren Anwendung generell: Je mehr an Daten (Wissen) vorhanden ist und je höher die Qualität dieser Daten (des Wissens), desto bessere Ergebnisse werden erzielt (belastbare Prognosen). Je besser also die Kenntnisse der AnwenderInnen, desto schneller und besser wird man sich mit den Möglichkeiten der Plattform vertraut machen.