Υποβοηθούμενες και Κατανεμημένες Τεχνικές Βαθίας Μάθησης για τη σημασιολογική ταξινόμηση εικόνων σε κινητές συσκευές – Server-assisted image classification
Διπλωματική Εργασία


Επιβλέπων Ιάκωβος Βενιέρης
Συσχετιζόμενο μάθημα Δίκτυα Ευρείας Ζώνης

Περιγραφή

Σκοπός της διπλωματικής εργασίας είναι η σχεδίαση και ανάπτυξη μίας ολοκληρωμένης εφαρμογής αποθήκευσης και κατηγοριοποίησης εικόνας (AI Gallery App) για κινητές συσκευές με υποβοήθηση εξυπηρετητή. Ο σπουδαστής θα κληθεί να σχεδιάσει και να αναπτύξει τα συνιστώντα μέρη λογισμικού που αντιστοιχούν στην κινητή συσκευή και στη λειτουργία του εξυπηρετητή. Το τελικό σύστημα θα πρέπει να αξιολογηθεί ως προς τη διεκπεραιωτική ικανότητα, την παραμετροποίηση ως προς το νευρωνικό δίκτυο, την υποστήριξη διαφορετικών συσκευών και την επεκτασιμότητα ως προς τον αριθμό των χρηστών.

Τα τελευταία χρόνια, η ευρεία διαθεσιμότητα εξελιγμένων συστημάτων κάμερας σε κινητές συσκευές έχει οδηγήσει σε πρωτοφανείς απαιτήσεις για υπηρεσίες υπολογιστικής όρασης. Η ταξινόμηση εικόνας, μία τεχνική σημασιολογικής κατηγοριοποίησης εικόνων βάσει του οπτικού περιεχομένου τους, αποτελεί ένα πολλά υποσχόμενο εργαλείο για την ανάπτυξη καινοτόμων εφαρμογών, όπως η αυτόματη περιγραφή εικόνων, εφαρμογές επαυξημένης και εικονικής πραγματικότητας, και η αναγνώριση προσώπου.

Παρότι η ταξινόμηση εικόνας αποτελεί παραδοσιακό πρόβλημα όρασης υπολογιστών, πρόσφατα τα βαθιά νευρωνικά δίκτυα (deep neural networks) πέτυχαν ασύγκριτα επίπεδα ορθότητας - ακρίβειας (accuracy) ως προς την κατηγοριοποίηση μιας εικόνας.

Παρά την υψηλή ορθότητα τους, τα σύγχρονα βαθιά νευρωνικά δίκτυα θέτουν προκλήσεις ως προς την εκτέλεση τους σε κινητές συσκευές, με περιορισμένους υπολογιστικούς πόρους. Οι κυριότερες είναι η υψηλή υπολογιστική πολυπλοκότητα και οι απαιτήσεις σε μνήμη.

Μία εναλλακτική προσέγγιση αποτελεί η εκτέλεση μέσω τεχνολογιών υπολογιστικού νέφους (cloud computing) ή υπολογισμού στα άκρα του δικτύου (edge computing). Υπό αυτό το σχήμα, οι εικόνες προς επεξεργασία αποστέλλονται από τη συσκευή του χρήστη σε έναν απομακρυσμένο εξυπηρετητή, ο οποίος με τη σειρά του εκτελεί τους υπολογισμούς του νευρωνικού δικτύου, επιστρέφοντας πίσω μόνο το αποτέλεσμα της ταξινόμησης. Αυτή η αρχιτεκτονική επιτρέπει την ταξινόμηση εικόνων με υψηλή διεκπεραιωτική ικανότητα, την υποστήριξη ετερογενών συσκευών με ποικίλες υπολογιστικές δυνατότητες (από μοντέλα προηγούμενης γενιάς ως flagship συσκευές), τη δυνατότητα επιλογής διαφορετικού νευρωνικού δικτύου (αναβάθμιση ή ευέλικτη επιλογή μοντέλου), την εξυπηρέτηση πολλαπλών χρηστών και την ενδεχόμενη μείωση κατανάλωσης ενέργειας στη μεριά του χρήστη.

Η διπλωματική δίνει την δυνατότητα στον σπουδαστή να ασχοληθεί και να εξοικειωθεί με την ανάπτυξη κατανεμημένων συστημάτων για αλγορίθμους Βαθιάς Μάθησης, που επιτρέπει αφενός την ενσωμάτωση ισχυρών μοντέλων Βαθιάς Μάθησης σε κινητές συσκευές κι αφετέρου τη ρύθμιση του πλαισίου διαλειτουργικότητας τους με επικουρικές διαδικασίες του υπολογιστικού νέφους, έναν κλάδο ραγδαία αναπτυσσόμενο στις μέρες μας.

Απαραίτητες βασικές γνώσεις: Python, Android mobile app development (Java), Deep Learning frameworks (TensorFlow), Firebase.