Allgemein Analytics, Auswertung, Statistik

SSAS Data Mining – Association Rules

Im vorigen Blogeintrag SSAS Data Mining – Clustering wurde die prinzipielle Vorgangsweise mittels SQL Server Analysis Data Mining vorgestellt. Auf die Data Mining Ziele und Interpretation der Ergebnisse wurde jedoch nur sporadisch eingegangen. Deshalb wird dieses Mal der Fokus auf die Charakteristiken des Datensatzes, deren Aufbereitung, sowie die Evaluierung der Resultate gelegt.

Datensatz

Der zu analysierende Datensatz enthält Zuordnungen von Benutzern zu Gruppen.

Hier zu erwähnen ist, dass die Gruppenzuordnungen von zwei Systemen mit derselben Benutzerbasis zusammengeführt worden sind. Dementsprechend hoch ist die Anzahl an Gruppen, welche möglicherweise redundant vorhanden sind. Daher ist das Ziel mittels Data Mining zu analysieren, welche Gruppen zusammengeführt werden können. Die Datenstruktur ist jedoch für Data Mining ungeeignet, da die Relationen über mehrere Zeilen verteilt sind. Eine Transformation der Daten in folgende Form ist notwendig.

Für jeden Benutzer gibt es nur noch einen Eintrag, und jede Gruppe wird als Spalte dargestellt.

Methode

Auf den ersten Blick mag diese Aufgabenstellung als einfaches Clustering Szenario wirken. Betrachtet man die Situation genauer, ergibt sich ein anderes Bild. Bei den zur Verfügung stehenden Clustering Algorithmen wird jeder Eintrag zu genau einem Cluster zugeordnet. Dies ist in den meisten Fällen jedoch nicht ausreichend. Weiters problematisch, ist die hohe Anzahl an Dimensionen, die für k-Means und EM-Clustering ungeeignet sind. Beide Algorithmen basieren auf Distanzkennzahlen, welche bei zu vielen Attributen keine aussagekräftigen Ergebnisse mehr liefern können.

Abseits von Clustering Algorithmen, bietet das Association Rule Mining eine vielversprechende Alternative. Häufig gemeinsam vorkommende Attribute werden analysiert und Assoziationsregeln daraus erstellt.

Beispiel: Wenn ein Benutzer Gruppe 1 zugewiesen ist, ist dieser auch in Gruppe 5.

Diese Regel hat gewisse Qualitätsmerkmale:

Probability (Confidence)
gibt an, mit welcher Wahrscheinlichkeit die Regel richtig ist
Support
gibt die Häufigkeit an mit welcher die Regel angewendet werden kann
Importance (Lift)
ergibt sich aus der Confidence und dem Support

Modellerzeugung

Als Startpunkt wird beim SSAS Projekt eine Datenquelle und eine dazugehörige View angelegt. Der Aufbau der Datenstruktur ist in der folgenden Abbildung zu sehen.

Über das Kontextmenü im Ordner Mining Structures wird nun das Data Mining Modell erstellt. Dazu wählen wir im ersten Schritt die Option relationale Datenbank aus.

Als Data Mining Methode wird Microsoft Association Rules verwendet.

Die zuvor angelegte View dient als Basis für das Data Mining Modell.

In diesem Dialog kann der Tabellentyp auf dem Standardtyp Case belassen und zum nächsten Schritt übergegangen werden.

Die UserId wird als Schlüssel festgelegt, alle restlichen Spalten sind sowohl Input als auch Predictable. Um nicht jede Spalte einzeln auswählen zu müssen können die Checkboxen im Spaltenkopf verwendet werden.

Im nächsten Schritt werden die Inhalts- und Datentypen überprüft. Für die Gruppen sollte Boolean als Datentyp festgelegt sein.

Ziel ist es die bisherige Gruppenzuordnung zu optimieren und nicht anhand der derzeitigen Struktur Benutzergruppen für neue Benutzer vorzuschlagen. Deshalb ist ein Testdatensatz nicht notwendig und der Prozentsatz kann auf 0 gesetzt werden.

Im abschließenden Schritt aktivieren wir noch den Drill Through.

Interpretation

Nach dem Verarbeiten des Modells können die Ergebnisse im Mining Model Viewer betrachtet werden.

Die wichtigsten Erkenntnisse, welche durch die 8 oberen Regeln gewonnen werden können sind, dass Gruppe AD1G3 und AD2G2 in allen Fällen gemeinsam auftreten. Die beiden Gruppen sind daher redundant und können auf eine Gruppe reduziert werden. Dasselbe gilt für AD1G1 und AD2G3.

Weitere potentielle Optimierungen sich anhand weiterer Regeln möglich, bedürfen jedoch zusätzlicher Kontext Information in Bezug auf den Verwendungszeck bestimmter Gruppen.

Tags : Association Rules Clustering Data Mining SSAS

The author Herbert Pataky

Herbert Pataky schloss sein Studium im Bereich Software Engineering für Business und Finanz an der FH Hagenberg 2005 mit Auszeichnung ab. Bereits während des Studiums entwickelte Herr Pataky für mittelständische Kunden Individualsoftware zur Optimierung von Geschäftsprozessen und beschäftigte sich eingehend mit verteilten Software Architekturen. Sein berufsbegleitendes Studium Information Engineering und Management an der FH Hagenberg schloss Herr Pataky im Jahr 2008 ebenfalls mit Auszeichnung ab. Herr Pataky ist Spezialist in den Bereichen Business Analytics, Software Solutions und IT Consulting wo er seit mehr als 15 Jahren gemeinsam mit seinem Team sehr erfolgreich Mittelstands- und Großkunden aus dem Automotive-Bereich und Anlagenbau betreut. Er weist profundes Prozessverständnis in der Automobil-Industrie auf und ist Experte in den Bereichen Data Warehouse und Big Data Analytics im Microsoft Umfeld. Herbert ist Gründer & Eigentümer des Unternehmens PASO Solutions.

Cookie	Dauer	Beschreibung
_GRECAPTCHA	6 Monate	Dieses Cookie wird von Google gesetzt. Zusätzlich zu bestimmten Standard-Google-Cookies setzt reCAPTCHA bei der Ausführung ein erforderliches Cookie (_GRECAPTCHA), um die Risikoanalyse durchzuführen.
cli_user_preference	1 Jahr	Diese Cookies werden vom GDPR Cookie Consent WordPress Plugin gesetzt. Das Cookie wird verwendet, um die Benutzereinwilligung für die Cookies zu speichern.
cookielawinfo-checkbox-advertisement	1 year	Dieses Cookie wird vom GDPR Cookie Consent Plugin gesetzt und wird verwendet, um die Zustimmung des Benutzers für die Cookies in der Kategorie "Werbung" aufzuzeichnen.
cookielawinfo-checkbox-analytics	1 Jahr	Diese Cookies werden vom GDPR Cookie Consent WordPress Plugin gesetzt. Das Cookie wird verwendet, um die Benutzereinwilligung für die Cookies unter der Kategorie "Analytics" zu speichern.
cookielawinfo-checkbox-necessary	1 Jahr	Dieses Cookie wird vom GDPR Cookie Consent Plugin gesetzt. Die Cookies werden verwendet, um die Einwilligung des Benutzers für die Cookies in der Kategorie "Notwendig" zu speichern.
cookielawinfo-checkbox-others	1 Jahr	Diese Cookies werden vom GDPR Cookie Consent WordPress Plugin gesetzt. Das Cookie wird verwendet, um die Benutzereinwilligung für die Cookies unter der Kategorie "Andere" zu speichern.
CookieLawInfoConsent	1 Jahr	Diese Cookies werden vom GDPR Cookie Consent WordPress Plugin gesetzt. Das Cookie wird verwendet, um die Benutzereinwilligung für die Cookies zu speichern.
JSESSIONID	past	Das JSESSIONID-Cookie wird von New Relic verwendet, um eine Sitzungskennung zu speichern, damit New Relic die Anzahl der Sitzungen für eine Anwendung überwachen kann.
viewed_cookie_policy	1 Jahr	Das Cookie wird vom GDPR Cookie Consent Plugin gesetzt und wird verwendet, um zu speichern, ob der Benutzer der Verwendung von Cookies zugestimmt hat oder nicht. Es werden keine personenbezogenen Daten gespeichert.

Cookie	Dauer	Beschreibung
_ga	2 Jahr	Dieses Cookie wird von Google Analytics installiert. Das Cookie wird verwendet, um Besucher-, Sitzungs- und Kampagnendaten zu berechnen und die Nutzung der Website für den Analysebericht der Website zu verfolgen. Die Cookies speichern Informationen anonym und weisen eine zufällig generierte Nummer zu, um eindeutige Besucher zu identifizieren.
_ga_G4YM34008H	2 years	Identifikationscode der Website zur Verfolgung von Besuchen.
_gat_gtag_UA_86474208_1	1 minute	Identifikationscode der Website zur Verfolgung von Besuchen.
_gid	1 Tag	Dieses Cookie wird von Google Analytics installiert. Das Cookie wird verwendet, um Informationen darüber zu speichern, wie Besucher eine Website nutzen, und hilft bei der Erstellung eines Analyseberichts über die Funktionsweise der Website. Die gesammelten Daten, einschließlich der Anzahl der Besucher, der Quelle, aus der sie stammen, und der Seiten, die in anonymer Form angezeigt werden.

Cookie	Dauer	Beschreibung
CONSENT	16 years 7 months 22 days 5 hours 28 minutes	No description
YSC	session	Diese Cookies werden von Youtube gesetzt und dienen zum Verfolgen der Ansichten eingebetteter Videos.

Cookie	Dauer	Beschreibung
IDE	1 year 24 days	Wird von Google DoubleClick verwendet und speichert Informationen darüber, wie der Nutzer die Website und andere Werbung verwendet, bevor er die Website besucht. Dies wird verwendet, um Nutzern Anzeigen zu präsentieren, die für sie entsprechend dem Nutzerprofil relevant sind.
test_cookie	15 minutes	Dieses Cookie wird von doubleclick.net gesetzt. Mit dem Cookie soll festgestellt werden, ob der Browser des Benutzers Cookies unterstützt.
VISITOR_INFO1_LIVE	5 months 27 days	Dieser Cookie wird von Youtube gesetzt. Wird verwendet, um die Informationen der eingebetteten YouTube-Videos auf einer Website zu verfolgen.

Entdecke den neuen Microsoft Planner: Ein umfassendes Aufgabenmanagement-Tool

Microsoft Planner: Meine Eindrücke von der Funktion „Hinzufügen eines Plans zum Outlook-Kalender“

M365 Stream – neu und verbessert?

Microsoft Viva Goals: Erledigen Sie ihre Ziele

Effektiveres Arbeiten mit Microsoft Planner

Microsoft FindTime

Backup for Office 365

Modern Script Editor Webpart

SharePoint: Lösung um „Kalender-Einträge“ in Farbe darzustellen

Bevorzugte Sprache in Benutzerprofilen richtig setzen

Jetzt Patchen – Sicherheitslücke CVE-2019-0604 – SharePoint On Premise

Connected WebParts in SharePoint Online

Interview: Miriam Mayer von der Österreichischen Post über den digitalen Arbeitsplatz „OSKAR“ mit SharePoint, Teams, Yammer und Office 365

Das Interview zum Global Azure Bootcamp 2020

MS Teams und Gruppen – eine wünschenswerte Kombination

Metadaten in mehreren Sprachen anzeigen und nach Bildern filtern mit dem HATAHET Intelligent Picture Resizer

Microsoft Teams vollautomatisch erstellen

SPFx Extension für den HATAHET Intelligent Picture Resizer

Interview: Miriam Mayer von der Österreichischen Post über den digitalen Arbeitsplatz „OSKAR“ mit SharePoint, Teams, Yammer und Office 365

Backup for Office 365

Connected WebParts in SharePoint Online

Was kostet eine Azure Function?

OneDrive for Business Dokumente öffnen sich am Client nur mehr read-only!

Formatieren von Ansichten in modernen SharePoint-Listen und -Bibliotheken