ΕΝΤΟΠΙΣΜΟΣ ΥΠΟΧΡΕΩΣΕΩΝ ΥΠΟΒΟΛΗΣ ΑΝΑΦΟΡΩΝ ΣΤΗΝ ΕΥΡΩΠΑΪΚΗ ΝΟΜΟΘΕΣΙΑ ΜΕ ΑΠΟΔΟΤΙΚΗ ΛΕΠΤΟΜΕΡΗ ΡΥΘΜΙΣΗ ΜΕΓΑΛΩΝ ΓΛΩΣΣΙΚΩΝ ΜΟΝΤΕΛΩΝ
Διπλωματική Εργασία


Περιγραφή

ΠΕΡΙΛΗΨΗ: Σκοπός της εργασίας είναι η διερεύνηση και εφαρμογή αποδοτικών τεχνικών για τη λεπτομερή ρύθμιση (fine-tuning) μεγάλων γλωσσικών μοντέλων (llms) με στόχο τον αυτόματο εντοπισμό και ταξινόμηση προτάσεων που περιέχουν υποχρεώσεις υποβολής αναφορών (reporting obligations) σε νομοθετικά κείμενα της ευρωπαϊκής ένωσης (E.E.).

ΠΛΑΤΦΟΡΜΑ ΕΡΓΑΣΙΑΣ: Python, Βιβλιοθήκες Επεξεργασίας Φυσικής Γλώσσας, Βιβλιοθήκες μηχανικής μάθησης, Βιβλιοθήκες αποδοτικής ρύθμισης.

ΣΥΝΤΟΜΗ ΠΕΡΙΓΡΑΦΗ: Η πολυπλοκότητα και ο όγκος της νομοθεσίας της Ε.Ε. καθιστούν δύσκολο τον χειροκίνητο εντοπισμό συγκεκριμένων νομικών διατάξεων, όπως οι υποχρεώσεις που επιβάλλονται στα κράτη μέλη ή άλλους φορείς για την υποβολή αναφορών ή δεδομένων. Η αυτοματοποίηση αυτής της διαδικασίας με χρήση τεχνητής νοημοσύνης μπορεί να βελτιώσει σημαντικά την πρόσβαση, την ανάλυση και τη συμμόρφωση με τη νομοθεσία.

Στόχος της εργασίας είναι η ανάπτυξη και αξιολόγηση ενός συστήματος βασισμένου σε μεγάλα γλωσσικά μοντέλα (llms) για την αυτόματη ταξινόμηση προτάσεων που περιέχουν ρητές υποχρεώσεις υποβολής αναφορών. Η εργασία θα επικεντρωθεί σε παραμετρικά αποδοτικές τεχνικές λεπτομερούς ρύθμισης που επιτρέπουν την προσαρμογή προ-εκπαιδευμένων llms με σημαντικά χαμηλότερες υπολογιστικές απαιτήσεις (μνήμη, χρόνος) σε σύγκριση με την πλήρη ρύθμιση, αξιοποιώντας το εξειδικευμένο σύνολο δεδομένων της Ε.Ε. [1].

Τα στάδια εκπόνησης της διπλωματικής εργασίας προβλέπονται ως εξής:

  • Μελέτη σχετικής βιβλιογραφίας
    • ανασκόπηση βιβλιογραφίας σε μεγάλα γλωσσικά μοντέλα (llms), τεχνικές παραμετρικά αποδοτικής λεπτομερούς ρύθμισης (peft) με έμφαση σε lora/qlora, και εφαρμογές επεξεργασίας φυσικής γλώσσας (nlp) στη νομική ανάλυση και τον εντοπισμό υποχρεώσεων
  • Προετοιμασία δεδομένων και υλοποίηση συστήματος:
    • εξαγωγή προτάσεων και δημιουργία συνόλων εκπαίδευσης, επικύρωσης και ελέγχου
    • επιλογή κατάλληλου προ-εκπαιδευμένου llm
    • υλοποίηση και λεπτομερής ρύθμιση του μοντέλου
  • Πειραματική αξιολόγηση αποτελεσμάτων
    • Ποσοτική και ποιοτική αξιολόγηση της απόδοσης ταξινόμησης
    • Ανάλυση επίδρασης παραμέτρων

ΣΧΕΤΙΚΟ ΥΛΙΚΟ

  1. Annotation of reporting obligations in EU legislation dataset [http://data.europa.eu/89h/76896b14-993e-4401-83de-b72e0fbf6052]
  2. A Survey of Large Language Models https://arxiv.org/abs/2303.18223
  3. A Survey on Evaluation of Large Language Models https://dl.acm.org/doi/full/10.1145/3641289
  4. Lora: low-rank adaptation of large language models. [https://arxiv.org/abs/2106.09685]
  5. How does nlp benefit legal system: a summary of legal artificial intelligence [https://arxiv.org/abs/2004.12158]

Επικοινωνία: Μάριος Κόνιαρης (mkoniari@central.ntua.gr), Μέλος Ε.ΔΙ.Π

Τσανάκας Παναγιώτης (panag@cs.ntua.gr)