Ανάπτυξη Μηχανισμών Αυτόματης Κατηγοριοποίησης Νομικών Κείμενων
Διπλωματική Εργασία


Περιγραφή

Περίληψη: Σκοπός της εργασίας είναι η μελέτη και ανάπτυξη μηχανισμών αυτόματης κατηγοριοποίησης σε κείμενα νομικής φύσης.

Πλατφόρμα Εργασίας: Java/Python

Σύντομη Περιγραφή: Η κατηγοριοποίηση (classification) είναι μία τεχνική της εξόρυξης δεδομένων, κατά την οποία ένα στοιχείο ανατίθεται σε ένα προκαθορισμένο σύνολο κατηγοριών. Στην βιβλιογραφία υπάρχουν αρκετές αναλυτικές έρευνες αναφορικά με τη κατηγοριοποίηση κειμένου [1,2] καθώς και πλήθος από αλγόριθμους [3] και βιβλιοθήκες. Το Eurovoc είναι ένας πολυγλωσσικός λεξικογραφικός θησαυρός που τηρεί η Υπηρεσία Εκδόσεων της Ευρωπαϊκής Ένωσης και χρησιμοποιείται, μεταξύ άλλων, για την ταξινόμηση των εγγράφων της Ε.Ε. σε κατηγορίες για ευκολότερη αναζήτηση πληροφοριών. Βασίζεται στο σύστημα οργάνωσης απλής γνώσης (SKOS),ένα διαδεδομένο πρότυπο για την αναπαράσταση πληροφοριών με χρήση RDF.

Το αντικείμενο της διπλωματικής είναι η υλοποίηση ενός συστήματος που θα επιτρέπει την αυτόματη κατηγοριοποίηση νομικών κειμένων (Νομοθεσία/ Νομολογία) κάνοντας χρήση του EuroVoc. Δεδομένα εισόδου για το σύστημα θα είναι κείμενα νομικής φύσεως, νομοθεσία και νομολογία (δικαστικές αποφάσεις), σε μορφή κειμένου. Το σύστημα θα πρέπει να αναθέτει σε κάθε έγγραφο μια ή περισσότερες κατηγορίες μέσω του Eurovoc.

Στα πλαίσια της διπλωματικής εργασίας θα πραγματοποιηθούν οι ακόλουθες εργασίες:

  • Θα μελετηθεί η σχετική βιβλιογραφία και θα συζητηθούν προσεγγίσεις/ιδέες για την αυτόματη κατηγοριοποίηση Ελληνικών νομικών κειμένων.
  • Θα υλοποιηθούν αλγόριθμοι κατηγοριοποίησης κειμένων
  • Θα αξιολογηθεί η αποτελεσματικότητά τους.

Για την υλοποίηση της Δ.Ε., οι υποψήφιοι θα έχουν στην διάθεση τους την Ελληνική νομοθεσία σε xml μορφή

Σχετικό Υλικό:

  1. C.C. Aggarwal and C.X. Zhai. A survey of text classification algorithms. Mining Text Data, pages 163–222, 2012. http://charuaggarwal.net/text-content.pdf
  2. K. Kowsari et al., Text Classification Algorithms: A Survey https://doi.org/10.3390/info10040150
  3. https://github.com/kk7nc/Text_Classification#comparison-text-classification-algorithms
  4. Eurovoc, https://op.europa.eu/s/uNMG
  5. PyEuroVoc Python εργαλείο για την κατηγοριοποίηση νομικών εγγράφων μέσω EuroVoc https://pypi.org/project/pyeurovoc/
  6. Jex JRC Eurovoc Indexer, Java εργαλείο για την κατηγοριοποίηση νομικών εγγράφων μέσω EuroVoc https://ec.europa.eu/jrc/en/language-technologies/jrc-eurovoc-indexer

Επικοινωνία: Μάριος Κόνιαρης (mkoniari@central.ntua.gr), Μέλος Ε.ΔΙ.Π

Τσανάκας Παναγιώτης (panag@cs.ntua.gr)