ΕΠΙΣΤΟΛΗ ΑΠΟ ΤΗΝ ΑΦΡΙΚΗ
Ζητήστε από το ChatGPT να αναφέρει τα ονόματα των αφρικανικών χωρών. Μέχρι εδώ καλά. Περιπλέκετε λίγο τα πράγματα ρωτώντας τον στην Τιγρίνια, μια γλώσσα που ομιλείται στην Ερυθραία και τη βόρεια Αιθιοπία. «Το αποτέλεσμα είναι ασυναρτησίες, με ένα μείγμα από αμχαρικά [άλλο αιθιοπικό ιδίωμα] , Tigrinia και κατασκευασμένες λέξεις που δεν έχουν νόημα σε καμία από τις δύο γλώσσες», παρατηρεί ο Αιθίοπας επιστήμονας υπολογιστών Asmelash Teka Hadgu, αφού προκάλεσε το συνομιλητικό ρομπότ που σχεδίασε η OpenAI.
Το ίδιο πείραμα θα μπορούσε εξίσου εύκολα να πραγματοποιηθεί με την Προβατίνα (Γκάνα, Τόγκο), τη Γιορούμπα (Νιγηρία, Μπενίν) ή την Τσόνγκα (Νότια Αφρική, Μοζαμβίκη). Η συντριπτική πλειονότητα των περίπου 2.000 γλωσσών που ομιλούνται στην ήπειρο είναι σχεδόν ανύπαρκτη στο Διαδίκτυο και επομένως δεν αναγνωρίζονται ή δεν αναγνωρίζονται ελάχιστα από συστήματα τεχνητής νοημοσύνης (AI) όπως το ChatGPT, το Google Translate ή το Siri. Ονομάζονται «χαμηλών πόρων», σε αντίθεση με μερικές γλώσσες «υψηλών πόρων», με επικεφαλής τα αγγλικά, οι οποίες σήμερα κυριαρχούν στον παγκόσμιο ιστό.
Όπως και ο Asmelash Teka Hadgu, ένας αυξανόμενος αριθμός Αφρικανών επιχειρηματιών και ερευνητών εργάζονται τώρα για να καλύψουν αυτά τα κενά. Με έδρα το Βερολίνο, ο Αιθίοπας συνίδρυσε την start-up Lesan το 2019, αφιερωμένη στις γλώσσες της πατρίδας του. Η εταιρεία έχει αναπτύξει ένα εργαλείο αυτόματης μετάφρασης μεταξύ Tigrinya, Amharic και English, και σχεδιάζει να προσθέσει σύντομα το Oromo και το Somali. Ανίκανη να βασιστεί σε μεγάλο αριθμό διαδικτυακών πόρων (για παράδειγμα, υπάρχουν μόνο 15.000 άρθρα της Wikipedia στα Αμχαρικά, μια γλώσσα που ομιλείται από 30 έως 50 εκατομμύρια άτομα), η ομάδα πρέπει να επιδείξει δημιουργικότητα στη συλλογή δεδομένων.
Μεγάλο μέρος του συλλέγεται σε βιβλία, περιοδικά και έγγραφα με τη βοήθεια τοπικών συνεργατών. Αυτά προσδιορίζουν το πιο σχετικό περιεχόμενο, στη συνέχεια σαρώνουν και μεταφράζουν, χρησιμοποιώντας ένα οπτικό σύστημα αναγνώρισης χαρακτήρων. «Απαιτεί πολλή δουλειά, ειδικά χειρωνακτική εργασία », αναγνωρίζει ο επιχειρηματίας. Διαπιστώνουμε όμως ότι είναι δυνατό να οικοδομήσουμε ένα ποιοτικό μοντέλο βασισμένο σε μικρά, προσεκτικά επιλεγμένα σύνολα δεδομένων. »
Η συνάφεια της εν λόγω μεθοδολογίας
Οι τεχνολογικοί γίγαντες δηλώνουν επίσης ότι θέλουν να συμμετάσχουν στην προώθηση αυτών των υποεκπροσωπούμενων ιδιωμάτων, ενώ σύμφωνα με ειδικούς, σχεδόν 7.000 γλώσσες στον κόσμο απειλούνται με αόρατο ή ακόμα και ψηφιακό θάνατο. Η έκδοση 4 του ChatGPT περιλαμβάνει μερικά, όπως τα Ισλανδικά. Το Google Translate, από την πλευρά του, περιέλαβε περίπου δεκαπέντε αφρικανικές γλώσσες κατά τις ενημερώσεις το 2020 και το 2022. Ωστόσο, το επίπεδο μετάφρασης που προσφέρεται είναι συχνά ανεπαρκές και οι Αφρικανοί ερευνητές αμφισβητούν τη συνάφεια μιας μεθοδολογίας που δεν ανταποκρίνεται στις ιδιαιτερότητες των γλωσσών της Αφρικής.
Σας απομένει να διαβάσετε το 55% αυτού του άρθρου. Τα υπόλοιπα προορίζονται για συνδρομητές.