Αξιολόγηση Αναγνώρισης Ονοματικών Οντοτήτων σε Ελληνικά Νομικά Κείμενα
Διπλωματική Εργασία


Περιγραφή

Περίληψη: Σκοπός της εργασίας είναι η αξιολόγηση αλγορίθμων/ τεχνικών για την αναγνώριση ονοματικών οντοτήτων (Νamed Εntity Recognition, NER) σε ελληνικά κείμενα νομικής φύσης (Νόμοι, Δικαστικές Αποφάσεις).

Πλατφόρμα Εργασίας: Java/Python

Σύντομη Περιγραφή: Η αναγνώριση ονοματικών οντοτήτων αποτελεί ένα σημαντικό συστατικό των συστημάτων εξαγωγής πληροφοριών αλλά και των συστημάτων επεξεργασίας φυσικής γλώσσας και αποσκοπεί στο να εντοπίσει και να ταξινομήσει οντότητες που απαντώνται σε κείμενο σε προκαθορισμένες κατηγορίες, όπως ονόματα, οργανισμοί, τοποθεσίες, χρονικές εκφράσεις, ποσότητες κ.λπ. Συνήθως ακολουθείται από την διαδικασία της αποσαφήνισης, την αντιστοίχιση των οντοτήτων που εντοπίστηκαν σε οντότητες από μια γνωσιακή βάση.

Στην βιβλιογραφία υπάρχουν αρκετές αναλυτικές έρευνες αναφορικά με τεχνικές/αλγόριθμους αναγνώρισης ονομάτων οντοτήτων [1,2] καθώς και πλήθος βιβλιοθηκών.

Η εργασία αυτή είχε ως σκοπό την αξιολόγηση αλγορίθμων/ τεχνικών αναγνώρισης ονοματικών οντοτήτων (πρόσωπα, οργανισμοί, τοποθεσίες, χρονικές εκφράσεις) σε ελληνικά κείμενα νομικής φύσης (Νόμοι, Δικαστικές Αποφάσεις κ.λπ.).

Στα πλαίσια της διπλωματικής εργασίας θα πραγματοποιηθούν οι ακόλουθες εργασίες:

  • Θα μελετηθεί η σχετική βιβλιογραφία και θα καθοριστούν οι προς αξιολόγηση τεχνικές.
  • Θα καθοριστούν τα τυπικά δεδομένα δοκιμών /Σύνολο αντικειμενικής αλήθειας
  • Θα αξιολογηθεί η αποτελεσματικότητά των τεχνικών.

Σχετικό Υλικό:

  1. Vikas Yadav and Steven Bethard, A Survey on Recent Advances in Named Entity Recognition from Deep Learning models https://arxiv.org/abs/1910.11470
  2. J. Devlin et al, BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, https://arxiv.org/abs/1810.04805
  3. Spacy Βιβλιοθήκη python για επεξεργασία φυσικής γλώσσας https://spacy.io/

Επικοινωνία: Μάριος Κόνιαρης (mkoniari@central.ntua.gr), Μέλος Ε.ΔΙ.Π

Τσανάκας Παναγιώτης (panag@cs.ntua.gr)