Κωδικοί CAPTCHA για ψηφιοποίηση δεδομένων: μία εφαρμογή στην ελληνική γλώσσα.
Διπλωματική Εργασία


Επιβλέπων Ιάκωβος Βενιέρης
Συσχετιζόμενο μάθημα Δίκτυα Ευρείας Ζώνης

Περιγραφή

Η ψηφιοποίηση αξιόλογων συλλογών και η διάθεσή τους στο Διαδίκτυο, ιδιαιτέρα σε τομείς και γλώσσες που δεν είναι ιδιαίτερα διαδεδομένες, ανοίγει νέα μονοπάτια για την πρόσβαση στην πληροφορία με στόχο την εκπαίδευση και την εξοικείωση με παλαιοτέρους πολιτισμούς και συνήθειες. Για τα ελληνικά́ δεδομένα, η πράξη αυτή́ συνεπάγεται την ανάδειξη αναλογικών συλλογών κειμένων παλαιότερης εποχής και τον επακόλουθο εμπλουτισμό́ του Ιστού́ με ελληνόγλωσσο κείμενο. Ταυτόχρονα, η ψηφιοποίηση τέτοιων κείμενων δεν περιορίζεται στην ενημέρωση των Ελλήνων χρηστών του Διαδικτύου, αλλά́ παρέχει την κατάλληλη υποδομή́ διευκολύνοντας τη μετάφραση των κειμένων αυτών στην ψηφιακή́ τους πλέον μορφή́, ώστε να είναι δυνατή́ η διάχυσή τους στο ξενόγλωσσο κοινό.

Αντικείμενο της παρούσας διπλωματικής εργασίας είναι η ανάπτυξη ενός συστήματος ψηφιοποίησης ελληνικών χειρόγραφων ή δακτυλογραφημένων κειμένων, πιθανώς αλλοιωμένων από́ το χρόνο. Το προτεινόμενο σύστημα θα βασίζει τη λειτουργία του αφενός σε τεχνικές μηχανικής μάθησης και αφετέρου στη μέθοδο ελέγχου CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart).

Απαραίτητη είναι η καλή γνώση της γλώσσας προγραμματισμού Python.

(1-2 άτομα) (Υπεύθυνοι ερευνητές: Δρ. Δ. Μερίδου, Ε. Καραμανής, Υ. Δ/ρας)