Skip to main content

Βρέθηκε τρόπος να αποθηκεύονται ολόκληρα γλωσσικά μοντέλα όπως το ChatGPT μέσα στα κινητά τηλέφωνα

Επαναστατική τεχνική συμπίεσης δεδομένων.

Τα ισχυρά μοντέλα τεχνητής νοημοσύνης όπως το ChatGPT χρειάζονται άφθονη ενέργεια για να λειτουργήσουν, επομένως συνήθως «στεγάζονται» σε τεράστια κέντρα δεδομένων. Ωστόσο, μια νέα ανακάλυψη θα μπορούσε να συμπιέσει αυτά τα μοντέλα τεχνητής νοημοσύνης ώστε να «χωρέσουν» σε ένα smartphone ή σε ένα φορητό υπολογιστή.

Ένας νέος αλγόριθμος, που ονομάζεται Calibration Aware Low Precision Decomposition with Low Rank Adaptation (CALDERA), συμπιέζει τις τεράστιες ποσότητες δεδομένων που απαιτούνται για την εκτέλεση ενός μεγάλου γλωσσικού μοντέλου (LLM) περικόπτοντας πλεονασμούς στον κώδικα και μειώνοντας την ακρίβεια των επιπέδων πληροφοριών του.

Αυτό το πιο λιτό LLM αποδίδει με ακρίβεια και αποχρώσεις σε ελαφρώς χαμηλότερα επίπεδα από την ασυμπίεστη έκδοση παρουσίασαν επιστήμονες στο Συνέδριο για τα Συστήματα Επεξεργασίας Νευρωνικών Πληροφοριών (NeurIPS).

«Κάθε φορά που μπορείτε να μειώσετε την υπολογιστική πολυπλοκότητα, την αποθήκευση και τις απαιτήσεις εύρους ζώνης της χρήσης μοντέλων τεχνητής νοημοσύνης, μπορείτε να ενεργοποιήσετε την τεχνητή νοημοσύνη σε συσκευές και συστήματα που διαφορετικά δεν θα μπορούσαν να χειριστούν τέτοιες εργασίες εντατικής υπολογισμού και μνήμης» αναφέρει ο Αντρέα Γκόλντσμιθ, καθηγητής Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών στο Πανεπιστήμιο του Πρίνστον, εκ των επικεφαλής της ερευνητικής ομάδας.

Κάθε φορά που κάποιος χρησιμοποιεί το ChatGPT (για να πάρουμε ένα δημοφιλές παράδειγμα) στο τηλέφωνο ή το φορητό υπολογιστή του, οποιοδήποτε αίτημα γίνεται αποστέλλεται σε τεράστιους, απομακρυσμένους διακομιστές, όπου τα δεδομένα υποβάλλονται σε επεξεργασία με μεγάλο περιβαλλοντικό και οικονομικό κόστος, ανέφεραν οι επιστήμονες στη μελέτη. Αυτό συμβαίνει επειδή τα μοντέλα τεχνητής νοημοσύνης αυτού του μεγέθους καταναλώνουν μεγάλες ποσότητες επεξεργαστικής ισχύος καθώς αξιοποιούν εκατοντάδες, αν όχι χιλιάδες, στοιχεία όπως μονάδες επεξεργασίας γραφικών (GPU). Επομένως, για να εκτελέσετε αυτά τα αιτήματα χρησιμοποιώντας τη μοναδική GPU σε μια μικρή συσκευή, το μέγεθος και το εύρος του μοντέλου AI πρέπει να συμπιεστούν.

Οι τεχνικές

Για τη συμπίεση ενός LLM, το CALDERA συνδυάζει δύο τεχνικές. Η πρώτη τεχνική μειώνει τον αριθμό των bit (1 και 0 δευτ. δεδομένων) που χρησιμοποιούνται για την αποθήκευση πληροφοριών, γεγονός που επιταχύνει την αποθήκευση και την επεξεργασία ενώ βελτιώνει την ενεργειακή απόδοση, είπαν οι επιστήμονες. Η τεχνική αυτή ονομάζεται «χαμηλής ακρίβειας». Η δεύτερη που ονομάζεται «χαμηλής βαθμίδας», αναφέρεται στη μείωση των απολύσεων στις παραμέτρους που μπορούν να μάθουν που χρησιμοποιούνται στην εκπαίδευση LLMs.

«Προτείναμε έναν γενικό αλγόριθμο για τη συμπίεση μεγάλων συνόλων δεδομένων ή μεγάλων πινάκων. Και τότε συνειδητοποιήσαμε ότι σήμερα, δεν είναι μόνο τα σύνολα δεδομένων που είναι μεγάλα, αλλά τα μοντέλα που αναπτύσσονται γίνονται επίσης μεγάλα. Έτσι, θα μπορούσαμε επίσης να χρησιμοποιήσουμε τον αλγόριθμό μας για να συμπιέσει αυτά τα μοντέλα. Χρησιμοποιώντας και τις δύο αυτές ιδιότητες μαζί, είμαστε σε θέση να έχουμε πολύ μεγαλύτερη συμπίεση από ό,τι μπορεί να επιτύχει κάθε μία από αυτές τις τεχνικές ξεχωριστά» αναφέρει Ρατζάρσι Σάχα διδακτορικός φοιτητής στο Πανεπιστήμιο του Στάνφορντ, μέλος της ερευνητικής ομάδας.

Η ομάδα δοκίμασε τον αλγόριθμο στα μοντέλα ανοιχτού κώδικα Llama 2 και Llama 3 της Metα (της μητρικής εταιρείας του Facebook και του Instagram) και κατέγραψε βελτίωση έως και 5% σε σχέση με υπάρχοντες αλγόριθμους συμπίεσης που χρησιμοποιούν μόνο μία από τις δύο τεχνικές.
Τα αποτελέσματα θα μπορούσαν να ανοίξουν το δρόμο για την αποθήκευση και εκτέλεση των LLM σε smartphone ή φορητούς υπολογιστές στο μέλλον, σε περιπτώσεις όπου το απόρρητο είναι πρωταρχικής σημασίας και όταν δεν είναι απαραίτητη η μέγιστη ακρίβεια.
Ωστόσο, οι επιστήμονες προειδοποίησαν ότι τα LLM δεν είναι βελτιστοποιημένα για να λειτουργούν αποτελεσματικά σε τέτοιες συσκευές.

Δεν θα είστε ευχαριστημένοι εάν εκτελείτε ένα LLM και το τηλέφωνό σας αδειάσει σε μια ώρα. Αλλά δεν θα έλεγα ότι υπάρχει μία μόνο τεχνική που λύνει όλα τα προβλήματα. Αυτό που προτείνουμε σε αυτό το άρθρο είναι μια τεχνική που χρησιμοποιείται σε συνδυασμό με τεχνικές που προτείνονται σε προηγούμενες εργασίες. Και νομίζω ότι αυτός ο συνδυασμός θα μας επιτρέψει να χρησιμοποιήσουμε LLM σε κινητές συσκευές πιο αποτελεσματικά και να έχουμε πιο ακριβή αποτελέσματα» εξηγεί ο Σάχα.

Naftemporiki.gr