Συσταδοποίηση σημασιολογικών δεδομένων
Διπλωματική Εργασία


Επιβλέπων Γιώργος Στάμου
Συσχετιζόμενο μάθημα Συστήματα και Τεχνολογίες Γνώσης

Περιγραφή

Για τη συσταδοποίηση ενός συνόλου δεδομένων απαιτείται συνήθως ο υπολογισμός ενός συνόλου χαρακτηριστικών που να περιγράφουν με «ικανοποιητικό τρόπο» καθένα από τα δεδομένα. Τα είδη των χαρακτηριστικών εξαρτώνται ασφαλώς από το είδος των δεδομένων και από την επιδιωκόμενη συσταδοποίηση. Για παράδειγμα, για απλά κειμενικά δεδομένα ως χαρακτηριστικά χρησιμοποιούνται συνήθως, ύστερα από κατάλληλη προεπεξεργασία (απομάκρυνση νοηματικά τετριμμένων λέξεων, λημματοποίηση, κλπ.), οι λέξεις που εμφανίζονται στα κείμενα. Στην περίπτωση όμως όπου τα δεδομένα είναι σημασιολογικά χαρακτηρισμένα, δηλαδή αποτελούν στιγμιότυπα οντολογικής γνώσης, το σύνολο των χαρακτηριστικών μπορεί να διευρυνθεί ώστε να συμπεριληφθεί η πληροφορία που προέρχεται από την οντολογία. Δεδομένου ότι οι έννοιες της οντολογίας στις οποίες συμμετέχει ένα αντικείμενο αποτελούν κατ’ εξοχήν φορμαλιστική περιγραφή του αντικειμένου, η χρήση αυτού του είδους των χαρακτηριστικών αναμένεται να αποδειχθεί ιδιαίτερα χρήσιμη κατά την διαδικασία της συσταδοποίησης.

Αντικείμενο αυτής της διπλωματικής εργασίας είναι η μελέτη των τρόπων με τους οποίους μια οντολογία μπορεί να χρησιμοποιηθεί ως πηγή χαρακτηριστικών για την συσταδοποίηση ενός συνόλου δεδομένων. Τα δεδομένα θα θεωρηθεί ότι είναι εν γένει ημιδομημένα, δηλαδή ότι είναι εν μέρει κατηγοριοποιημένα βάσει κάποιας οντολογίας, αλλά ότι μπορεί να περιέχουν και κάποια επιπλέον, αδόμητη κειμενική πληροφορία που να αποτελεί δυνητική πηγή επιπλέον χαρακτηριστικών. Έτσι, αρχικά θα πρέπει να υπολογίζεται ο κατάλληλος χώρος αναπαράστασης των χαρακτηριστικών που προέρχονται από τις δύο διαφορετικές πηγές. Για την παραγωγή των χαρακτηριστικών που αφορούν την οντολογία θα πρέπει να γίνει χρήση τεχνικών συλλογιστικής, καθώς κάποια από αυτά μπορεί να είναι ρητώς δηλωμένα, άλλα όμως μπορεί να αποτελούν υπονοούμενη γνώση και να μην είναι άμεσα διαθέσιμα. Όπως προαναφέρθηκε, τα χαρακτηριστικά που προκύπτουν από την οντολογική αναπαράσταση των δεδομένων θα μπορούν να συνυπάρχουν και με χαρακτηριστικά που προκύπτουν απευθείας από την επεξεργασία της αδόμητης πληροφορίας. Με βάση τον χώρο των χαρακτηριστικών, θα πραγματοποιείται η συσταδοποίηση, η οποία θα πρέπει να προσφέρεται ως «δυναμική» διαδικασία, ώστε να είναι δυνατή η συσταδοποίηση με βάση συγκεκριμένα χαρακτηριστικά κατά προτεραιότητα, π.χ. με βάση συγκεκριμένες εννοιολογικές ιεραρχίες της οντολογίας ή χαρακτηριστικά προερχόμενα από την αδόμητη πλευρά των δεδομένων.