ΕΝΤΟΠΙΣΜΟΣ ΥΠΟΧΡΕΩΣΕΩΝ ΥΠΟΒΟΛΗΣ ΑΝΑΦΟΡΩΝ ΣΤΗΝ ΕΥΡΩΠΑΪΚΗ ΝΟΜΟΘΕΣΙΑ ΜΕ ΑΠΟΔΟΤΙΚΗ ΛΕΠΤΟΜΕΡΗ ΡΥΘΜΙΣΗ ΜΕΓΑΛΩΝ ΓΛΩΣΣΙΚΩΝ ΜΟΝΤΕΛΩΝ
Διπλωματική Εργασία
Επιβλέπων | Παναγιώτης Τσανάκας |
---|---|
Συσχετιζόμενο μάθημα | Τεχνολογίες Υπηρεσιών Λογισμικού |
Περιγραφή
ΠΕΡΙΛΗΨΗ: Σκοπός της εργασίας είναι η διερεύνηση και εφαρμογή αποδοτικών τεχνικών για τη λεπτομερή ρύθμιση (fine-tuning) μεγάλων γλωσσικών μοντέλων (llms) με στόχο τον αυτόματο εντοπισμό και ταξινόμηση προτάσεων που περιέχουν υποχρεώσεις υποβολής αναφορών (reporting obligations) σε νομοθετικά κείμενα της ευρωπαϊκής ένωσης (E.E.).
ΠΛΑΤΦΟΡΜΑ ΕΡΓΑΣΙΑΣ: Python, Βιβλιοθήκες Επεξεργασίας Φυσικής Γλώσσας, Βιβλιοθήκες μηχανικής μάθησης, Βιβλιοθήκες αποδοτικής ρύθμισης.
ΣΥΝΤΟΜΗ ΠΕΡΙΓΡΑΦΗ: Η πολυπλοκότητα και ο όγκος της νομοθεσίας της Ε.Ε. καθιστούν δύσκολο τον χειροκίνητο εντοπισμό συγκεκριμένων νομικών διατάξεων, όπως οι υποχρεώσεις που επιβάλλονται στα κράτη μέλη ή άλλους φορείς για την υποβολή αναφορών ή δεδομένων. Η αυτοματοποίηση αυτής της διαδικασίας με χρήση τεχνητής νοημοσύνης μπορεί να βελτιώσει σημαντικά την πρόσβαση, την ανάλυση και τη συμμόρφωση με τη νομοθεσία.
Στόχος της εργασίας είναι η ανάπτυξη και αξιολόγηση ενός συστήματος βασισμένου σε μεγάλα γλωσσικά μοντέλα (llms) για την αυτόματη ταξινόμηση προτάσεων που περιέχουν ρητές υποχρεώσεις υποβολής αναφορών. Η εργασία θα επικεντρωθεί σε παραμετρικά αποδοτικές τεχνικές λεπτομερούς ρύθμισης που επιτρέπουν την προσαρμογή προ-εκπαιδευμένων llms με σημαντικά χαμηλότερες υπολογιστικές απαιτήσεις (μνήμη, χρόνος) σε σύγκριση με την πλήρη ρύθμιση, αξιοποιώντας το εξειδικευμένο σύνολο δεδομένων της Ε.Ε. [1].
Τα στάδια εκπόνησης της διπλωματικής εργασίας προβλέπονται ως εξής:
- Μελέτη σχετικής βιβλιογραφίας
- ανασκόπηση βιβλιογραφίας σε μεγάλα γλωσσικά μοντέλα (llms), τεχνικές παραμετρικά αποδοτικής λεπτομερούς ρύθμισης (peft) με έμφαση σε lora/qlora, και εφαρμογές επεξεργασίας φυσικής γλώσσας (nlp) στη νομική ανάλυση και τον εντοπισμό υποχρεώσεων
- Προετοιμασία δεδομένων και υλοποίηση συστήματος:
- εξαγωγή προτάσεων και δημιουργία συνόλων εκπαίδευσης, επικύρωσης και ελέγχου
- επιλογή κατάλληλου προ-εκπαιδευμένου llm
- υλοποίηση και λεπτομερής ρύθμιση του μοντέλου
- Πειραματική αξιολόγηση αποτελεσμάτων
- Ποσοτική και ποιοτική αξιολόγηση της απόδοσης ταξινόμησης
- Ανάλυση επίδρασης παραμέτρων
ΣΧΕΤΙΚΟ ΥΛΙΚΟ
- Annotation of reporting obligations in EU legislation dataset [http://data.europa.eu/89h/76896b14-993e-4401-83de-b72e0fbf6052]
- A Survey of Large Language Models https://arxiv.org/abs/2303.18223
- A Survey on Evaluation of Large Language Models https://dl.acm.org/doi/full/10.1145/3641289
- Lora: low-rank adaptation of large language models. [https://arxiv.org/abs/2106.09685]
- How does nlp benefit legal system: a summary of legal artificial intelligence [https://arxiv.org/abs/2004.12158]
Επικοινωνία: Μάριος Κόνιαρης (mkoniari@central.ntua.gr), Μέλος Ε.ΔΙ.Π
Τσανάκας Παναγιώτης (panag@cs.ntua.gr)