Έξω από μια κατοικία στα προάστια του Αμβούργου στη Γερμανία το γραμματοκιβώτιο αντί για όνομα γράφει την λέξη «LAION». Περνώντας κάποιος έξω από αυτή την κατοικία και μαθαίνοντας ότι ανήκει σε ένα καθηγητή γυμνασίου είναι μάλλον απίθανο να του περάσει από το μυαλό ότι μπροστά του βλέπει έναν τους πυρήνες της αλματώδους εξέλιξης της τεχνολογίας τεχνητής νοημοσύνης που συμβαίνει το τελευταίο χρονικό διάστημα.
Όταν ο Κρίστοφ Σούμαν δεν διδάσκει φυσική και πληροφορική στους μαθητές του ασχολείται μαζί με μια ομάδα εθελοντών σε ένα ερευνητικό πρότζεκτ που ονομάζεται «Large-scale AI Open Network» (LAION). Πρόκειται για τη μεγαλύτερη ελεύθερης πρόσβασης βάση δεδομένων εκπαίδευσης προγραμμάτων τεχνητής νοημοσύνης. Το LAION έχει ήδη χρησιμοποιηθεί στην ανάπτυξη προγραμμάτων μετατροπής κειμένου σε εικόνες όπως τα Imagen και Stable Diffusion της Google.
Βάσεις δεδομένων όπως η LAION είναι απαραίτητες για τα προγράμματα τεχνητής νοημοσύνης μετατροπής κειμένου σε εικόνες. Αυτά τα προγράμματα βασίζονται σε αυτές για τις τεράστιες ποσότητες οπτικού υλικού που χρησιμοποιούνται για την αποδόμηση εικόνων και τη δημιουργία νέων εικόνων. Η έκρηξη στην ανάπτυξη νεών τεχνολογιών τεχνητής νοημοσύνης που προκάλεσε η εμφάνιση του προγράμματος ChatGPT πριν από μερικούς μήνες παράγει καθημερινά εκτός από εντυπωσιακές εφαρμογές και συστήματα και πολλά ζητήματα νομικής και ηθικής τάξης.
Τους τελευταίους μήνες έχουν κατατεθεί μηνύσεις κατά των εταιρειών Stability AI και Midjourney που αναπτύσσουν προγράμματα τεχνητής νοημοσύνης για παραβίαση πνευματικών δικαιωμάτων. Επίσης είναι πολλοί εκείνοι που κρούουν τον κώδωνα του κινδύνου για τις βίαιες, ερωτικές και γενικότερα προβληματικές εικόνες σε αυτές τις βάσεις δεδομένων οι οποίες έχουν κατηγορηθεί ότι εισάγουν προκαταλήψεις που είναι σχεδόν αδύνατο να μετριαστούν στα τελικά αποτελέσματα που παράγουν.
Όμως όπως φαίνεται ο Σούμαν δεν συμμερίζεται αυτές τις απόψεις και φόβους και το μόνο που θέλει είναι να δημιουργεί δεδομένα τα οποία να προσφέρει ελεύθερα σε όποιον τα χρειάζεται. Ο 40χρονος καθηγητής περνούσε τον χρόνο του σε ένα διακομιστή στον οποίο συγκεντρώνονται οπαδοί της τεχνητής νοημοσύνης όταν αποφάσισε να δημιουργήσει το LAION
«Συνειδητοποίησα ότι αν δημιουργηθούν τέτοιες βάσεις δεδομένων που θα ελέγχονται από μια, δύο ή τρεις το πολύ εταιρείες και η πρόσβαση σε αυτές θα είναι επί πληρωμή αυτό θα έχει αρνητικές επιπτώσεις στην κοινωνία» λέει ο Σούμαν που μαζί με άλλα άτομα που χρησιμοποιούσαν τον διακομιστή αποφάσισαν να δημιουργήσουν αυτή την ελεύθερης πρόσβασης βάση δεδομένων για εκπαίδευση προγραμμάτων μετατροπής κειμένου σε εικόνες.
Λίγες εβδομάδες μετά τη δημιουργία της βάσης ο Σούμαν και οι συνεργάτες του είχαν καταφέρει να δημιουργήσουν τρία εκατ. ζευγάρια εικόνων-γραπτού κειμένου που θα μπορούσαν να χρησιμοποιηθούν ως δείγματα για εκπαίδευση ενός προγράμματος τεχνητής νοημοσύνης. Μετά από τρεις μήνες το LAION είχε πλέον 400 εκατ. τέτοια ζεύγη και σήμερα έχει πάνω από πέντε δισεκατομμύρια.
Τα υλικά της βάσης
Πολλές από τις εικόνες και τους συνδέσμους σε βάσεις δεδομένων όπως το LAION βρίσκονται σε κοινή θέα στον Ιστό, σε ορισμένες περιπτώσεις εδώ και δεκαετίες. Χρειάστηκε η πρόσφατη έκρηξη στην έρευνα της τεχνητής νοημοσύνης για να αποκαλυφθεί η πραγματική τους αξία, καθώς όσο μεγαλύτερο και διαφορετικό είναι ένα σύνολο δεδομένων και όσο υψηλότερη είναι η ποιότητα των εικόνων σε αυτό, τόσο πιο καθαρή και ακριβής θα είναι μια εικόνα που δημιουργείται από AI.
Αυτή η συνειδητοποίηση, με τη σειρά της, έχει εγείρει μια σειρά από νομικά και ηθικά ερωτήματα σχετικά με το εάν το υλικό που είναι διαθέσιμο στο κοινό μπορεί να χρησιμοποιηθεί για την τροφοδοσία βάσεων δεδομένων και εάν η απάντηση είναι ναι, εάν πρέπει να πληρωθούν οι δημιουργοί.
Για να δημιουργήσουν το LAION, οι ιδρυτές χρησιμοποίησαν εικόνες και αρχεία από εταιρείες και υπηρεσίες όπως το Pinterest, το Shopify και το Amazon Web Services, από ιστοσελίδες εφημερίδων αλλά και ιστοσελίδες κυβερνητικών υπηρεσιών όπως το Υπουργείο Άμυνας των ΗΠΑ χωρίς κανείς από όλους αυτούς να έχει εγείρει μέχρι στιγμής ζητήματα παραβίασης των όρων χρήσης των δεδομένων και υπηρεσιών τους.
Ο Σούμαν από την πλευρά του υποστηρίζει πώς όλα τα δεδομένα που υπάρχουν στο LAION είναι ελεύθερα διαθέσιμα στο Διαδίκτυο και άρα δεν υπάρχει ή τουλάχιστον δεν πρέπει να υπάρχει κάποιο νομικό ζήτημα της χρήσης τους ειδικά όταν αυτή συνεχίσει να γίνεται με ελεύθερο τρόπο.
Δεν υπάρχει επίσης ακόμη πουθενά μια οργανωμένη νομοθεσία για την ανάπτυξη τεχνολογίας τεχνητής νοημοσύνης και πιθανολογείται ότι ανάμεσα στα ζητήματα που μπορεί να μπουν κανόνες και περιορισμοί είναι αυτό της απόκτησης, χρήσης και επεξεργασίας δεδομένων για βάσεις όπως το LAION.
Κανείς δεν γνωρίζει τι είδους βάσεις δεδομένων έχει χρησιμοποιήσει η Open AI, η εταιρεία που δημιούργησε το ChatGPT.
O Σούμαν δηλώνει ότι μέχρι στιγμής δεν έχει υπάρξει καταγγελία για ύπαρξη παράνομου ή επικίνδυνου για παιδιά υλικού στο LAION. Έχει συμβουλευτεί δικηγόρους και στη βάση τρέχει ένα φίλτρο που απομακρύνει δεδομένα που σχετίζονται με τη βία ή άλλο υλικό που μπορεί να θεωρηθεί παράνομο.
Τα αποτελέσματα
Καθώς η βάση μεγαλώνει το ίδιο συμβαίνει και με τα κόστη που απαιτούνται για την ανάπτυξη της, την ενοικίαση χώρων σε διακομιστές ή υπολογιστικά νέφη κλπ. Ευτυχώς για την ομάδα που αναπτύσσει τη βάση μεγαλώνει παράλληλα και η φήμη του LAION και έτσι δέχονται το τελευταίο χρονικό διάστημα χορηγίες από εταιρείες του κλάδου της τεχνητής νοημοσύνης. Όμως εξετάζουν πολύ προσεκτικά κάθε πρόταση χορηγίας και συνεργασίας προσπαθώντας να διατηρήσουν τον έλεγχο της βάσης, τον ελεύθερο χαρακτήρα της και την ανεξαρτησία τους.
Μια από τις εταιρείες που προσφέρθηκε να συνδράμει υλικοτεχνικά την ομάδα του LAION είναι η εταιρεία Stability AI που αναπτύσσει προγράμματα τεχνητής νοημοσύνης. Η ναυαρχίδα της εταιρείας είναι το πρόγραμμα δημιουργίας εικόνων Stable Diffusion που βασίστηκε στο LAION. Η αξία της εταιρείας μέσα σε ένα χρόνο εκτιμάται ότι αγγίζει πλέον τα 4 δισ. δολάρια και προσέλαβε δύο από τα μέλη του LAION.
Σε κάθε περίπτωση η τεχνητή νοημοσύνη εισβάλει πλέον πολύ δυναμικά στη ζωή του σύγχρονου και οι τρόποι που οι τεχνολογίες τεχνητής νοημοσύνης αναπτύσσονται και το τι τελικά κάνουν αποτελούν ήδη αντικείμενο έντονου προβληματισμού από την παγκόσμια επιστημονική κοινότητα αλλά και την ίδια την βιομηχανία της τεχνολογίας. Πρόσφατα χιλιάδες ειδικοί και στελέχη της βιομηχανίας της τεχνολογίας συνυπέγραψαν μια ανοικτή επιστολή στην οποία ζητούν την άμεση παύση για έξι μήνες της έρευνας στα προγράμματα τεχνητής νοημοσύνης μέχρι να υπάρξει μια οργανωμένη συζήτηση για τους κινδύνους που ελλοχεύουν από αυτή την τεχνολογία και την λήψη αποφάσεων για τον έλεγχο της.
Naftemporiki.gr