Περίληψη:
Στο παρόν έγγραφο παρουσιάζω μια διαδικτυακή εφαρμογή ονόματι Clusterix, που
στόχο έχει να υποστηρίξει τους χρήστες σε εργασίες συσταδοποίησης δεδομένων,
έχοντας τους χρήστες-αναλυτές στο επίκεντρο της εργασιακής ροής. Το Clusterix,
δίνει την ευκολία στον χρήστη να:
- Φορτώσει και να εξετάσει αρχεία csv,
- να επιλέξει συγκεκριμένες στήλες που θα χρησιμοποιηθούν απο τους αλγόριθμους
συσταδοποίησης και να επιλέξει βάρη για τις στήλες αυτές,
- να επιλέξει και να τρέξει έναν ή περισσότερους αλγόριθμους (K-Means,
Ιεραρχική συσταδοποίηση) με διαφορετικές παραμέτρους,
- να εξετάσει και να ανηλεπιδράσει με τα αποτελέσματα σε ένα διαδικτυακό
περιβάλλον, και
- να αλλάξει τις παραμέτρους της εισόδου για να διορθώσει τα αποτελέσματα της
συσταδοποίησης.
Αυτή η επαναληπτική μέθοδος, με την χρήση οπτικοποίησης δεδομένων, επιτρέπει
στους χρήστες να αντιληφθούν γρήγορα τον καλύτερο αλγόριθμο συσταδοποίησης και
παραμέτρους για τα δεδομένα τους, και να διορθώσουν τυχόν λάθη στην έξοδο. Το
Clusterix έχει χρησιμοποιηθεί για συσταδοποίηση και ανάλυση ετερογενών πηγών
δεδομένων, και συγκεκριμένα στην συσταδοποίηση ακαδημαικών συγγραφέων και
συσχετισμών τους με πανεπιστήμια, με στόχο τη δημιουργία ενός reccomendation
system για το InspireHEP, την μεγαλύτερη ηλεκτρονική βιβλιοθήκη για High Energy
Physics στον κόσμο, που αναπτύσεται στο CERN.
Λέξεις-κλειδιά:
οπτικοποίηση, συσταδοποίηση, μηχανική μάθηση, διάγραμμα, ανάλυση δεδομένων