Clustering

Data Clustering

Clustering-algoritmes kunnen zelfstandig data groeperen op basis van onderlinge gelijkenissen tussen deze groepen. Deze groepen of clusters kunnen vervolgens in Trendskout worden gebruikt om nieuwe data aan de meeste relevante groep toe te wijzen. Het Trendskout-systeem gebruikt hiervoor verschillende best-of-breed technieken voor Deep Learning, Machine Learning en AI.

Een typevoorbeeld waarvoor clustering wordt gebruikt, is het opstellen van marketingpersona’s: het definiëren van klantengroepen met gelijkaardige profielen en noden. Maar er is meer: clustering-algoritmes worden net zo goed ingezet voor fraudedetectie, predictive maintenance en in tal van andere domeinen.

Algoritmes die gebruikt worden voor clustering hebben geen input nodig van mensen om gelijkaardige clusters op te stellen. Clustering-algoritmes vallen hierdoor onder de ‘Unsupervised Learning’-familie. Een trainingsstap is dus niet strikt noodzakelijk. Het is wel mogelijk om een clustering-algoritme in eerste fase toe te passen op een initiële dataset, om vervolgens in een tweede fase realtime data toe te voegen die dan meteen door het gegenereerde AI-clusteringmodel wordt toegekend aan de juiste cluster.

Business toepassingen

- Stel marketingpersona’s op
- Detecteer frauduleuze handelingen of transacties
- Plan onderhoudsbeurten intelligent in


artificial intelligence

Krachtig Cloud-AI PlatformDirect inzetbaar met een heldere interface, ook voor niet-datawetenschappers


Clustering in de AI Flow

1. Connect

2. Analyse

Clustering

Clustering is één van de Trendskout AI Flow analyse-functies.

3. Automate


Hoe werkt deze cluster analyse technisch?

Het Clustering-proces

Het Clustering-proces start zodra men de Run/Train knop aanklikt in Trendskout. Het systeem gaat verschillende clustering algoritmes uitvoeren op de input-data, gekoppeld aan de clustering-analyse via drag & drop in de AI flow. Hierbij worden verschillende combinaties van algoritmes en parameters gebruikt, m.a.w. hypertuning.

Tijdens het clustering proces zijn 2 criteria cruciaal. Ten eerste dienen de gedetecteerde groepen, clusters, datapunten te bevatten die zo dicht mogelijk bij elkaar liggen. Ten tweede moet het aantal clusters beperkt blijven. Er moeten dus een relatief klein aantal clusters van bij elkaar horende datapunten gevonden worden. Een clustering-algoritme dat groepen detecteert met data die niet bij elkaar hoort, of die erg veel kleine groepjes vindt, betekent dat er verder moet gezocht worden via hypertuning & Auto ML naar een beter resultaat. De verhouding tussen aantal clusters en gelijkaardigheid gevisualiseerd kan je visualiseren in een “Elbow-curve”.

Het hypertuning proces wordt past gestopt eens een optimaal resultaat wordt bereikt.


Gebruik van de Clustering-output

Er zijn twee types gebruik van de clustering output. Een eerste is waarbij de groepen, clusters, geïnterpreteerd worden als geavanceerde analyse op een dataset en de clusters gebruikt worden voor betere beslissingen en beter inzicht in bepaalde processen.

Een tweede gebruik is waarbij de clusters, en het achterliggend clustering-model, gebruikt worden om nieuwe data-punten toe te wijzen aan een cluster. Dit is vergelijkbaar met classificatie. Het verschil met classificatie is dat de trainingstap “Unsupervised” gebeurt, en er gelabeld wordt op basis van automatisch ontdekte groepen of clusters.


Data Clustering + Trendskout

Het Trendskout automated machine learning platform bevat verschillende clustering algoritmes die via een drag&drop-interface kunnen gekoppeld worden aan input en automatisatie-stappen in een AI flow. Alle datatransformatie, hypertuning, algoritmeselectie en het beheer van alle GPU/TPU Cloud Computing wordt volledig op de achtergrond beheerd.

Hierdoor wordt het inzetten van clustering-toepassingen in uw organisatie een stuk efficiënter en kan u zonder zorgen experimenteren.

Alle features ontdekken tijdens een live demo met uw eigen data?Neem contact op en we tonen u de directe meerwaarde van artificial intelligence voor uw organisatie.