Ι. ΠΑΡΙΣΤΑΘΙΣΤΕΣ ΑΛΗΘΕΙΕΣ
Σκεφτείτε ότι το ChatGPT του Open AI συμπεραίνει λανθασμένα την ημερομηνία γέννησης ή τη βιβλιογραφία ενός ατόμου, ο Bard της Google ανέφερε λανθασμένα ένα μέλος του ολλανδικού Χριστιανοδημοκρατικού κόμματος ως υποψήφιο για αρχηγό άλλου πολιτικού κόμματος ή πιο πρόσφατες ανησυχίες που εκφράστηκαν για την πραγματική ακρίβεια των απαντήσεων του DeepSeek . Αυτές είναι όλες περιπτώσεις ενός ευρέως αναφερόμενου προβλήματος που είναι κοινό σε όλα τα Μεγάλα Γλωσσικά Μοντέλα (LLM), που ονομάζεται ψευδαίσθηση : το LLM απαντά σε μια προτροπή χρήστη με εύλογα, αλλά μη πραγματικά, παραπλανητικά ή μη λογικά δεδομένα. Γιατί; Ουσιαστικά, τα LLM δημιουργούν κείμενο προσδιορίζοντας τις πιο πιθανές αλληλουχίες λέξεων που εμφανίζονται κατά τη διάρκεια της εκπαίδευσης , αλλά στερούνται την πραγματική κατανόηση του κειμένου που παράγουν. Με άλλα λόγια, η «αλήθεια» τους είναι η στατιστική, όχι η πραγματικότητα όπως την αντιλαμβανόμαστε.
Έχοντας αυτό υπόψη, το ερώτημα που απασχολεί πολλούς εμπειρογνώμονες προστασίας δεδομένων είναι εάν τα πραγματικά ανακριβή προσωπικά δεδομένα που παράγονται από LLM – όπως αυτά που παρουσιάζονται στα παραπάνω παραδείγματα – είναι ακριβή σύμφωνα με τον GDPR και, εάν όχι, ποια μέτρα πρέπει να λάβει ο υπεύθυνος επεξεργασίας για να τα διορθώσει. Τα υποκείμενα των δεδομένων που άσκησαν αγωγή κατά του Open AI επειδή το ChatGPT συμπέρανε εσφαλμένα την ημερομηνία γέννησής τους και τη βιβλιογραφία τους επικαλέστηκαν (μεταξύ άλλων) παραβίαση της αρχής της ακρίβειας του άρθρου 5.1 (δ) GDPR και του δικαιώματός τους για διόρθωση του άρθρου 16 GDPR . Το άρθρο 5.1.(δ) GDPR απαιτεί τα προσωπικά δεδομένα να είναι «ακριβή και ενημερωμένα». Επιπλέον, ο υπεύθυνος επεξεργασίας θα πρέπει να λάβει «κάθε εύλογο μέτρο για να διασφαλίσει ότι τα προσωπικά δεδομένα που είναι ανακριβή, λαμβάνοντας υπόψη τους σκοπούς για τους οποίους υποβάλλονται σε επεξεργασία, διαγράφονται ή διορθώνονται χωρίς καθυστέρηση». Σύμφωνα με το άρθρο 16 του ΓΚΠΔ, «το υποκείμενο των δεδομένων έχει το δικαίωμα να ζητήσει από τον υπεύθυνο επεξεργασίας χωρίς αδικαιολόγητη καθυστέρηση τη διόρθωση ανακριβών προσωπικών δεδομένων που το αφορούν». Επιπλέον, «λαμβάνοντας υπόψη τους σκοπούς της επεξεργασίας, το υποκείμενο των δεδομένων έχει το δικαίωμα να συμπληρώσει ελλιπή δεδομένα προσωπικού χαρακτήρα, μεταξύ άλλων μέσω της παροχής συμπληρωματικής δήλωσης».
Αυτή η ανάρτηση ιστολογίου, πρώτα, θα ασχοληθεί με τον τρόπο αξιολόγησης της ακρίβειας και τι σημαίνει διόρθωση σύμφωνα με τις δύο προαναφερθείσες διατάξεις. Δεύτερον, θα διερευνήσει τι σημαίνει αυτό για τα προσωπικά δεδομένα που δημιουργούνται από το LLM.
II. ΠΟΙΑ ΕΙΝΑΙ ΑΚΡΙΒΗ ΠΡΟΣΩΠΙΚΑ ΔΕΔΟΜΕΝΑ ΚΑΙ ΠΩΣ ΘΑ ΠΡΕΠΕΙ ΝΑ ΔΙΟΡΘΩΘΟΥΝ ΟΙ ΑΝΑΚΡΙΒΕΙΕΣ Βάσει του GDPR;
Παρακάτω θα επικεντρωθώ σε τέσσερις έννοιες που τίθενται συχνά σε συζητήσεις σχετικά με την ακρίβεια και τη διόρθωση των προσωπικών δεδομένων που δημιουργούνται από το LLM, και συγκεκριμένα: (i) σκοπός της επεξεργασίας. (ii) πραγματική ακρίβεια· (iii) κατανόηση των δεδομένων. (iv) διόρθωση.
(i) Σκοπός της επεξεργασίας
Μια ανάλυση της (πολύ περιορισμένης) νομολογίας του ΔΕΕ επί του θέματος (δηλαδή υπόθεση Nowak , παρ. 53) αποκαλύπτει ότι η ακρίβεια σύμφωνα με το άρθρο 5.1.δ) του προκατόχου του GDPR, δηλαδή το άρθρο 6 παράγραφος 1 στοιχείο δ) της Οδηγίας 95/46/ΕΚ, θα πρέπει να αξιολογηθεί υπό το φως του σκοπού της επεξεργασίας. Μια πρόσφατη γνώμη του Γενικού Εισαγγελέα Collins στο Deldits (παρ. 40) καθώς και οι πρόσφατες κατευθυντήριες γραμμές του EDPB σχετικά με την επεξεργασία προσωπικών δεδομένων βάσει του άρθρου 6 παράγραφος 1 στοιχείο στ) GDPR (παρ. 85) επιβεβαίωσαν ότι αυτή η προσέγγιση εξακολουθεί να ισχύει. Ωστόσο, αυτή η αποκαλούμενη «δοκιμή σκοπού» φέρει πολλές προκλήσεις.
Πρώτον, το ακριβές νόημα αυτής της δοκιμής είναι ασαφές. Στο Nowak αυτό το τεστ υπονοούσε ότι οι απαντήσεις που έδειχναν το χαμηλό επίπεδο γνώσεων ενός υποψηφίου για τις εξετάσεις σχετικά με το θέμα δεν ήταν ανακριβείς και, ως εκ τούτου, δεν μπορούσαν να διορθωθούν εκ των υστέρων . Ενώ το Συνέδριο απαρίθμησε πολλές περιπτώσεις ανακριβών προσωπικών δεδομένων σε εκείνη την περίπτωση – π.χ. εσφαλμένη απόδοση των απαντήσεων του υποψηφίου σε άλλον υποψήφιο και έλλειψη αντιστοιχίας μεταξύ των πραγματικών σχολίων του αξιολογητή και εκείνων που αναφέρονται στο φύλλο εξέτασης – αυτά τα παραδείγματα φαίνεται, από τη γλώσσα που χρησιμοποιεί το Δικαστήριο, να μην είναι εξαντλητικά ( Nowak , παρ. 54). Ως εκ τούτου, υπάρχουν πιθανώς και άλλες περιπτώσεις στις οποίες δεδομένα προσωπικού χαρακτήρα θεωρούνται ανακριβή υπό το φως του σκοπού της επεξεργασίας. Ωστόσο, λόγω της σπάνιας νομολογίας και των ρυθμιστικών οδηγιών σχετικά με το θέμα, μπορούμε μόνο να κάνουμε εικασίες για το ποιες μπορεί να είναι αυτές οι περιπτώσεις.
Δεύτερον, και σε συνδυασμό με την πρώτη πρόκληση, υπάρχουν ασυνέπειες στην εφαρμογή του τεστ σκοπού σε όλες τις εθνικές δικαιοδοσίες. Για παράδειγμα, το Εφετείο του Βελγίου (“ Marktenhof ”) έκρινε ότι ο πελάτης μιας τράπεζας είχε το δικαίωμα να ζητήσει διόρθωση ενός λανθασμένα γραμμένου ονόματος, χωρίς να αναφέρεται στον σκοπό της επεξεργασίας. Στην περίπτωση αυτή, το όνομα που επεξεργαζόταν η τράπεζα δεν περιείχε έμφαση στο «e», ενώ το όνομα του υποκειμένου των δεδομένων, όπως αναγραφόταν στην ταυτότητα του, περιείχε έμφαση. Αυτό αρκούσε για να αποφασίσει το Marktenhof ότι η τράπεζα έπρεπε να διορθώσει το όνομα όπως ζητούσε το υποκείμενο των δεδομένων. Αντίθετα, το Νορβηγικό Συμβούλιο Προσφυγών Προστασίας Προσωπικών Δεδομένων (“ Personvernrådet ”), κρίνοντας σε παρόμοια υπόθεση, έκρινε ότι η τράπεζα δεν ήταν υποχρεωμένη να διορθώσει το όνομα ενός πελάτη όπως ζητήθηκε από τον τελευταίο. Στην περίπτωση αυτή, το άτομο ζήτησε διόρθωση του προθέματός του, από «Van» σε «βαν», όπως αναφέρεται στο διαβατήριό του. Το Personvernrådet αξιολόγησε την ακρίβεια των δεδομένων υπό το φως του σκοπού της επεξεργασίας, δηλαδή τη διαχείριση της σχέσης τράπεζας-πελάτη. Σύμφωνα με το Διοικητικό Συμβούλιο, η επίμαχη ορθογραφία δεν εμπόδισε την τράπεζα να επιτύχει αυτόν τον σκοπό, καθώς δεν υπήρχε κίνδυνος εσφαλμένης αναγνώρισης του υποκειμένου των δεδομένων. Επομένως, το ανορθόγραφο όνομα δεν χαρακτηρίστηκε ως ανακριβή προσωπικά δεδομένα. Ενώ τα διαφορετικά αποτελέσματα μπορεί αναμφισβήτητα να πηγάζουν από την ύπαρξη κινδύνου εσφαλμένης αναγνώρισης στη βελγική υπόθεση, θα ήταν χρήσιμο εάν το Marktenhof το είχε διευκρινίσει, κάτι που δεν το έκανε.
(ii) Πραγματική ακρίβεια
Οι περιπτώσεις του Βελγίου και της Νορβηγίας δείχνουν επίσης μια τρίτη πρόκληση που προέκυψε από το τεστ σκοπού. Ενώ η εξάρτηση από το σκοπό συνεπάγεται ένα σχετικό όραμα ακρίβειας, οι δηλώσεις που έγιναν στο παρελθόν από το WP29, στην Καθοδήγηση σχετικά με την εφαρμογή της υπόθεσης Google Spain C-131/12 (σελ. 15) και τον ΕΕΠΔ, στις Κατευθυντήριες γραμμές για τα δικαιώματα των ατόμων σε σχέση με την επεξεργασία δεδομένων προσωπικού χαρακτήρα , αναφέρονται στην ακρίβεια (σελ. 18). Αυτή η έννοια της πραγματικής ακρίβειας φαίνεται να υποδηλώνει ότι η ακρίβεια πρέπει να αξιολογείται ανεξάρτητα από τον σκοπό της επεξεργασίας. Ωστόσο, η προαναφερθείσα πρόσφατη καθοδήγηση του EDPB φαίνεται να δείχνει ότι αυτές οι δύο προσεγγίσεις μπορούν να συνδυαστούν. Ενώ ο σκοπός της επεξεργασίας ορίζει τι είναι ακριβές, ο όρος «πραγματική» (ή «αντικειμενική») ακρίβεια θα μπορούσε να σχετίζεται, όπως υποστηρίζουν και άλλοι μελετητές , με τα στοιχεία που απαιτούνται για να τεκμηριωθεί η (ανα)ακρίβεια.
(iii) Κατανόηση των δεδομένων
Μια πτυχή που συχνά παραβλέπεται στις τρέχουσες ακαδημαϊκές συζητήσεις σχετικά με την ακρίβεια των προσωπικών δεδομένων είναι ότι η τελευταία σχετίζεται όχι μόνο με το περιεχόμενο των δεδομένων, αλλά και με την κατανόησή τους σε ένα συγκεκριμένο πλαίσιο. Αυτό φαίνεται ξεκάθαρα από την πρώιμη υποτροφία για την προστασία δεδομένων. Για παράδειγμα, ο Πέιτζ, ο οποίος ερεύνησε το δικαίωμα διόρθωσης στην πρώιμη νομοθεσία περί προστασίας δεδομένων των ΗΠΑ και της Ελβετίας στη δεκαετία του '60-80, δηλώνει ότι τα προσωπικά δεδομένα μπορεί να είναι "αντικειμενικά ψευδή ή να παράγουν μια εσφαλμένη εικόνα του υποκειμένου των δεδομένων σε ένα συγκεκριμένο πλαίσιο" (η έμφαση προστέθηκε) ( Βλ. Étude de base en droit privé suisse et américain , σελ. 299). Η ηλικία, η διεύθυνση και το επάγγελμα κάποιου είναι παραδείγματα δεδομένων που μπορεί να είναι αντικειμενικά ψευδή (Βλ. Σελίδα, σελ. 299). Η εσφαλμένη εικόνα θα μπορούσε να προκληθεί από σφάλματα στην ερμηνεία των δεδομένων, όχι απαραίτητα σφάλματα στα ίδια τα δεδομένα. Αυτή η ερμηνεία, συνεχίζει ο Page, μπορεί να αλλοιωθεί λόγω αναντιστοιχίας στο επίπεδο των ικανοτήτων ή/και των ερμηνευτικών κριτηρίων που κατέχει ο συγγραφέας των δεδομένων, αφενός, και ο αποδέκτης του τελευταίου, αφετέρου. Παρέχει το παράδειγμα μιας δήλωσης που περιγράφει ένα άτομο ως «νευρικό»: μια τέτοια δήλωση μπορεί να είναι ακριβής ή όχι, ανάλογα με το αν ο συγγραφέας και ο αποδέκτης της δήλωσης έχουν τα ίδια κριτήρια σχετικά με το τι κάνει ένα άτομο νευρικό (Βλ. Σελίδα, σελ. 300). Πιο πρόσφατα, άλλοι μελετητές της προστασίας δεδομένων έθιξαν τη σημασία της ανθρώπινης ερμηνείας σε σχέση με την ακρίβεια. Η Dimitrova , για παράδειγμα, αναφέρεται στην «ανθρώπινη γνώση» ως σημαντικό στοιχείο που καθορίζει την ποιότητα των προσωπικών δεδομένων και τονίζει τη σημασία της «εναρμονισμένης κατανόησης» των προσωπικών δεδομένων.
(iv) Μέτρα διόρθωσης
Αυτό που προκύπτει από το γεγονός ότι η ακρίβεια – ως αρχή και ως δικαίωμα του υποκειμένου των δεδομένων – αναφέρεται στα δεδομένα και στην κατανόησή τους, είναι ότι το μέτρο διόρθωσης που πρέπει να λάβει ο υπεύθυνος επεξεργασίας για να διορθώσει την ανακρίβεια εξαρτάται από την ανακρίβεια που διακυβεύεται. Από αυτή την άποψη, η Page διακρίνει τη διόρθωση από τη διόρθωση . Σε γενικές γραμμές, η διόρθωση θα αφορούσε μόνο σφάλματα στα (αντικειμενικά επαληθεύσιμα) δεδομένα και θα συνεπαγόταν τη διαγραφή και, σε ορισμένες περιπτώσεις, την αντικατάσταση των δεδομένων, όταν ο υπεύθυνος επεξεργασίας απέτυχε να αποδείξει την ακρίβειά τους (Βλ. Σελίδα, σελ. 306, 310). Η διόρθωση θα αφορά σφάλματα στην κατανόηση των δεδομένων. Θα συνεπαγόταν την πρόσθεση δεδομένων που είναι απαραίτητα για τη διόρθωση της συνολικής εικόνας που προκαλούν τα δεδομένα για το άτομο σε ένα συγκεκριμένο πλαίσιο (Βλ. Σελίδα, σελ. 315). Αυτό που θα αθροιζόταν, θα ήταν μόνο δεδομένα που είναι απολύτως απαραίτητα για τη διόρθωση της εν λόγω εικόνας (Βλ. Σελίδα, σελ. 314-315). Η Dimitrova προσφέρει επίσης μια προσέγγιση διόρθωσης που δεν περιορίζεται στη διαγραφή ή αντικατάσταση (αντικειμενικά) ανακριβών προσωπικών δεδομένων, αλλά περιλαμβάνει άλλα μέτρα, όπως διόρθωση της παρουσίασης ή της μορφής των προσωπικών δεδομένων, χωρίς να αλλοιώνονται τα ίδια τα προσωπικά δεδομένα. Σε παρόμοια γραμμή, η Drechsler, στη διδακτορική της διατριβή, συνδέει επίσης σιωπηρά τη διόρθωση με την κατανόηση των δεδομένων και υποστηρίζει ότι η διόρθωση μπορεί να σημαίνει «ότι γίνεται διαφανές ότι τα δεδομένα δεν είναι αντικειμενικές αλήθειες» (Βλ.
Παρακάτω, θα συζητήσω πώς ορισμένες Εποπτικές Αρχές (ΕΑ) έχουν εφαρμόσει τις προαναφερθείσες τέσσερις έννοιες σε προσωπικά δεδομένα που δημιουργούνται από LLM και, στη συνέχεια, πώς πιστεύω ότι αυτές οι έννοιες πρέπει να εφαρμόζονται στην υπό εξέταση υπόθεση.
III. ΠΟΙΕΣ ΕΙΝΑΙ ΟΙ ΕΠΙΠΤΩΣΕΙΣ ΓΙΑ ΤΑ ΠΡΟΣΩΠΙΚΑ ΔΕΔΟΜΕΝΑ ΠΟΥ ΔΗΜΙΟΥΡΓΗΣΑΝ LLM;
(i) Η μέχρι τώρα στάση των SA: βρίσκεται μεταξύ του σκοπού, της πραγματικής ακρίβειας και της κατανόησης των δεδομένων
Οι SA που έχουν ασχοληθεί εκτενέστερα με το θέμα μέχρι στιγμής φαίνονται παγιδευμένες σε έναν κύκλο κυκλικών συλλογισμών. Αντιμετωπίζουν το θέμα από την άποψη του σκοπού, της πραγματικής ακρίβειας και της παρερμηνείας, ωστόσο δεν απαντούν ξεκάθαρα πώς επηρεάζουν την ακρίβεια των προσωπικών δεδομένων που δημιουργούνται από το LLM και, ιδιαίτερα, τι πρέπει να γίνει για να διορθωθεί η ανακρίβεια.
Κατά την αντιμετώπιση της ακρίβειας των δεδομένων εξόδου ChatGPT, η Ομάδα Εργασίας ChatGPT του EDBP σημείωσε ότι ο σκοπός του ChatGPT δεν είναι «να παρέχει πραγματικά ακριβείς πληροφορίες» αλλά να «εκπαιδεύει το ChatGPT» (παρ. 30). Ωστόσο, παρατήρησε επίσης ότι οι απαντήσεις που παρέχονται από το ChatGPT «είναι πιθανό να θεωρηθούν ως πραγματικά ακριβείς από τους τελικούς χρήστες […] ανεξάρτητα από την πραγματική τους ακρίβεια» (παράγραφος 30). Κατά συνέπεια, πρόσθεσε η Taskforce, για να αποφευχθεί η παρερμηνεία των προσωπικών δεδομένων που δημιουργούνται από το ChatGPT, οι χρήστες θα πρέπει να είναι επαρκώς ενημερωμένοι σχετικά με την πιθανολογική φύση και το περιορισμένο επίπεδο αξιοπιστίας του ChatGPT (παρ. 31). Αυτό θα απορρέει επίσης από την αρχή της διαφάνειας του άρθρου 5.1(α) GDPR . Αν και τα μέτρα διαφάνειας μπορεί να είναι ωφέλιμα για την αποφυγή παρερμηνείας των αποτελεσμάτων, η Task Force κατέληξε στο συμπέρασμα, τον Μάιο του 2024, ότι δεν επαρκούν για τη συμμόρφωση με την αρχή της ακρίβειας (παρ. 31).
Περίπου 5 μήνες αργότερα, όταν αποφασίστηκε σχετικά με το εάν το ChatGPT συμμορφώνεται με τον GDPR, η Ιταλική Αρχή Προστασίας Δεδομένων (« Garante» ) επανέλαβε τους προβληματισμούς της προαναφερθείσας Ομάδας Εργασίας. Η Garante πρόσθεσε ότι, από την κυκλοφορία του τον Νοέμβριο του 2022, το OpenAI έχει λάβει πολλά μέτρα για τη μείωση των επιπτώσεων των ανακριβών εξόδων, όπως: (1) παροχή ειδοποιήσεων σε χρήστες με σκοπό την αποφυγή παρερμηνείας των αποτελεσμάτων του ChatGPT ως πραγματικά ακριβή. (2) άρση ανακρίβειων (π.χ. με μικρορύθμιση του μοντέλου). (3) δίνοντας εντολή στο μοντέλο να μην παρέχει στους χρήστες ιδιωτικά ή ευαίσθητα δεδομένα για άτομα· και (4) επιτρέποντας στα υποκείμενα των δεδομένων να σηματοδοτούν την παρουσία ανακρίβειων στην έξοδο του ChatGPT και να ζητούν τη διόρθωσή τους. Ωστόσο, παρά τα μέτρα αυτά, η Garante διαπίστωσε ότι το πρόβλημα της ανακρίβειας των προσωπικών δεδομένων που δημιουργήθηκαν από το ChatGPT « δεν είχε επιλυθεί ». Με άλλα λόγια, τον Νοέμβριο του 2024, τα προσωπικά δεδομένα που δημιουργήθηκαν από το ChatGPT εξακολουθούσαν να είναι ανακριβή.
Δεδομένου ότι οι ρυθμιστικές αρχές δεν έχουν ακόμη λάβει σαφή θέση σχετικά με το ζήτημα της ακρίβειας και της διόρθωσης για τα προσωπικά δεδομένα που δημιουργούνται από το LLM, παραθέτω παρακάτω την άποψή μου για το θέμα.
(ii) Δύο επιλογές διόρθωσης απομένουν: δυστυχώς, και οι δύο μπορεί να είναι αδιέξοδο
Βλέπω δύο επιλογές διόρθωσης: είτε να προσθέσω στα προσωπικά δεδομένα που δημιουργήθηκαν από το LLM είτε να τα διορθώσω .
Η πρόσθεση θα συνεπαγόταν τη στόχευση της κατανόησης της απάντησης κάθε LLM, λαμβάνοντας υπόψη τον μέσο χρήστη. Ωστόσο, αυτό μπορεί να μην είναι εμπορικά ελκυστικό για τους παρόχους LLM. Οι διάσπαρτες προειδοποιήσεις σχετικά με την περιορισμένη πραγματική ακρίβεια του αποτελέσματος του LLM και οι (ασυνεπείς) αρνήσεις απάντησης σε μηνύματα που περιέχουν προσωπικά δεδομένα αποτελούν ήδη ένα βήμα προς τη σωστή κατεύθυνση, αλλά, όπως επίσης σημειώθηκε από το Garante σε σχέση με το ChatGPT, δεν λύνουν οριστικά το πρόβλημα. Το πρόβλημα της παρερμηνείας της παραγωγής LLM και της δυνητικά παραπλανητικής εικόνας ενός ατόμου που μπορεί να δημιουργήσει είναι πιο θεμελιώδες, καθώς είναι πιθανό να είναι εγγενές στη φύση της γλώσσας που χρησιμοποιείται από τα LLM. Συγκεκριμένα, τα LLM έχουν σχεδιαστεί για να παράγουν συνεκτικές, ρευστές, καλά δομημένες και πειστικές προτάσεις, οι οποίες δίνουν μια αύρα αυθεντικότητας στις απαντήσεις τους. Όπως επισημαίνεται από τους Mittelstadt et al. , αν το συνδυάσετε με «την ανθρώπινη τάση να αποδίδει νόημα και πρόθεση σε […] λέξεις, η παρεξήγηση είναι αναπόφευκτη». Μια πρόσφατη μελέτη δείχνει, πράγματι, ότι οι άνθρωποι τείνουν να υπερεκτιμούν την ακρίβεια των απαντήσεων LLM. Η μελέτη καταλήγει στο συμπέρασμα ότι η αντίληψη των ανθρώπων για την ακρίβεια θα μπορούσε να βελτιωθεί, εάν το μοντέλο κοινοποιούσε ξεκάθαρα την αβεβαιότητα σχετικά με την (πραγματική) ακρίβεια σε κάθε απάντησή του. Έχοντας κατά νου αυτό και άλλες παρόμοιες προειδοποιήσεις ειδικών , οποιοδήποτε διορθωτικό μέτρο που δεν στοχεύει άμεσα την απάντηση του LLM και μεταδίδει σαφώς την αβεβαιότητα σχετικά με την πραγματική ακρίβεια των προσωπικών δεδομένων που περιέχονται σε αυτό, ενδέχεται να είναι απίθανο να εμποδίσει τους χρήστες να αντιληφθούν τις απαντήσεις του ChatGPT ως αντικειμενικά αληθείς. Αν και αυτό το μέτρο θα ήταν απαραίτητο για τη βελτίωση της αντίληψης για το αποτέλεσμα του LLM, δεν θα ήταν από μόνο του αρκετό. Θα απαιτηθούν επίσης πρόσθετα μέτρα διαφάνειας, όπως , για παράδειγμα, η αυτόματη παροχή πηγών για κάθε απάντηση. Τούτου λεχθέντος, μπορεί κανείς να αναρωτηθεί εάν η τροποποίηση της γλώσσας κάθε απάντησης σε κάτι πιο εσφαλμένο, δεν θα έθετε σε κίνδυνο την ίδια την ουσία του LLM και, ως εκ τούτου, θα το καθιστούσε εμπορικά μη βιώσιμο.
Εάν η αλλαγή της αντίληψης των δεδομένων εξόδου LLM ως πραγματικά σωστά δεν είναι βιώσιμη επιλογή, τότε η μόνη άλλη επιλογή που απομένει, κατά τη γνώμη μου, είναι να αντιμετωπίζονται τα προσωπικά δεδομένα που δημιουργούνται από το LLM ως γεγονότα και, κατά συνέπεια, να διορθώνονται τα ίδια τα δεδομένα . Αυτό σημαίνει ότι το κατάλληλο μέτρο διόρθωσης δεν θα είναι η πρόσθεση, αλλά η διόρθωση (δηλαδή η διαγραφή και/ή η αντικατάσταση) των ανακριβών δεδομένων. Ωστόσο, αυτή τη στιγμή, αυτό μπορεί να είναι τεχνικά πολύ δύσκολο για τους ελεγκτές. Στο παρελθόν, το OpenAI έχει πράγματι επικαλεστεί επανειλημμένα τους τεχνικούς περιορισμούς των LLM ως επιχείρημα για την εξαίρεση από τις υποχρεώσεις ακρίβειας και διόρθωσης προσωπικών δεδομένων. Συγκεκριμένα, η εταιρεία υποστήριξε ότι επί του παρόντος είναι τεχνικά αδύνατο για τα LLM να εμφανίζουν πάντα απαντήσεις που είναι πραγματικά ακριβείς. Επιπλέον, η διόρθωση ανακριβών δεδομένων εξόδου LLM (π.χ. βελτιστοποιώντας το μοντέλο), σύμφωνα με το Open AI, δεν θα ήταν πάντα τεχνικά εφικτή . Η πιθανότητα επιτυχίας αυτών των επιχειρημάτων εξαρτάται, κατά τη γνώμη μου, από τη συγκεκριμένη διάταξη για την ακρίβεια του GDPR που διακυβεύεται. Συγκεκριμένα, η διάταξη περί ακρίβειας του Άρθρου 5.1 (δ) GDPR υποχρεώνει τον υπεύθυνο επεξεργασίας να λάβει «εύλογα μέτρα» μόνο για τη διόρθωση ή τη διαγραφή της ανακρίβειας. Ως εκ τούτου, έχει ερμηνευτεί ως υποχρέωση μέσων, όχι ως υποχρέωση αποτελεσμάτων (Βλ. De Bot, De toepassing van de Algemene Verordening Gegevensbescherming in de Belgische context , σελ. 497). Αντίθετα, το δικαίωμα διόρθωσης βάσει του άρθρου 16 του ΓΚΠΔ στερείται οποιασδήποτε αναφοράς σε εύλογα μέτρα. Επομένως, η ακρίβεια σύμφωνα με το άρθρο 16 του ΓΚΠΔ είναι αναμφισβήτητα υποχρέωση αποτελέσματος και όχι μέσου. Η τεχνική αδυναμία για τα LLM να επιτύχουν ποσοστό ακρίβειας 100% θα μπορούσε, ως εκ τούτου, να σημαίνει ότι η εμφάνιση ανακριβών δεδομένων από ένα LLM δεν αποτελεί αφ' εαυτής παραβίαση του άρθρου 5.1.(δ) GDPR. Ωστόσο, η τεχνική αδυναμία αντικατάστασης ανακριβών δεδομένων με ακριβή σύμφωνα με αίτημα διόρθωσης του υποκειμένου των δεδομένων δεν θα συνιστούσε βάσιμο λόγο για την άρνηση διόρθωσης των δεδομένων όπως ζητήθηκε από το υποκείμενο των δεδομένων. Με άλλα λόγια, εάν το υποκείμενο των δεδομένων τεκμηριώσει αντικειμενικά το αίτημά του διόρθωσης – π.χ. παρέχει διαβατήριο για να βεβαιώσει την ημερομηνία γέννησής του/της –, ο υπεύθυνος επεξεργασίας θα πρέπει να διορθώσει τα δεδομένα αυτά. Η τεχνική αδυναμία θα μπορούσε, στην καλύτερη περίπτωση, να χρησιμοποιηθεί ως επιχείρημα για τη διαγραφή των ανακριβών προσωπικών δεδομένων, αντί της αντικατάστασής τους με ακριβή δεδομένα.
Συμπερασματικά, δεδομένης της τεράστιας κλίμακας με την οποία προσφέρονται και χρησιμοποιούνται επί του παρόντος υπηρεσίες που υποστηρίζονται από LLM, εάν η αλλαγή της (αντιληπτής) ακρίβειας των προσωπικών δεδομένων που δημιουργούνται από LLM δεν φαίνεται να είναι εμπορικά ή τεχνικά βιώσιμη, απομένει, κατά τη γνώμη μου, μόνο μία λύση: να απαγορευτεί εντελώς η χρήση των LLM για τη δημιουργία προσωπικών δεδομένων.
Η Stephanie Rossello είναι υποψήφια διδάκτορας στο Open Universiteit (Heerlen, Ολλανδία) και στο KU Leuven (Leuven, Βέλγιο). Η έρευνά της επικεντρώνεται στο δικαίωμα διόρθωσης ανακριβών προσωπικών δεδομένων γενικά και, ειδικότερα, που εφαρμόζονται σε συμπεράσματα τεχνητής νοημοσύνης και συστήματα τεχνητής νοημοσύνης. Πριν από την έναρξη του διδακτορικού της, η Stephanie εργαζόταν ως ερευνήτρια στο Centre for IT and IP Law (KU Leuven) και ως εσωτερική σύμβουλος και δικηγόρος με ειδίκευση στην προστασία των δεδομένων της ΕΕ, την αντιμονοπωλιακή νομοθεσία και το δίκαιο ακινήτων.