Τον Δεκέμβριο του 2024, η εταιρεία τεχνητής νοημοσύνης DeepSeek με έδρα το Hangzhou κυκλοφόρησε το μοντέλο V3 της, πυροδοτώντας θύελλα συζητήσεων. Το αποτέλεσμα ονομάστηκε «China's AI Shock».
Οι συγκρίσιμες επιδόσεις του DeepSeek-V3 με τους ομολόγους του στις ΗΠΑ, όπως το GPT-4 και το Claude 3, με χαμηλότερο κόστος, θέτει υπό αμφισβήτηση την κυριαρχία των ΗΠΑ στις ικανότητες τεχνητής νοημοσύνης, που υποστηρίζεται από την τρέχουσα πολιτική ελέγχου των εξαγωγών των Ηνωμένων Πολιτειών που στοχεύει προηγμένα τσιπ. Έθεσε επίσης υπό αμφισβήτηση το εδραιωμένο παράδειγμα της βιομηχανίας, το οποίο δίνει προτεραιότητα στις επενδύσεις βαρέως υλικού στην υπολογιστική ισχύ. Για να απηχήσει τις δηλώσεις του Προέδρου των ΗΠΑ Ντόναλντ Τραμπ, η εμφάνιση του DeepSeek δεν αντιπροσωπεύει απλώς «ένα κάλεσμα αφύπνισης» για την τεχνολογική βιομηχανία, αλλά και μια κρίσιμη συγκυρία για τις Ηνωμένες Πολιτείες και τους συμμάχους τους να επαναξιολογήσουν τις στρατηγικές τεχνολογικής πολιτικής τους.
Τι, λοιπόν, φαίνεται να έχει διαταράξει το DeepSeek; Η αποδοτικότητα κόστους που ισχυρίζεται η DeepSeek για το μοντέλο V3 της είναι εντυπωσιακή: το συνολικό κόστος εκπαίδευσης είναι μόνο 5,576 εκατομμύρια δολάρια, μόλις 5,5 τοις εκατό του κόστους για το GPT-4, το οποίο ανέρχεται στα 100 εκατομμύρια δολάρια. Η εκπαίδευση ολοκληρώθηκε με τη χρήση 2.048 GPU της NVIDIA , επιτυγχάνοντας αποδοτικότητα πόρων οκτώ φορές μεγαλύτερη από τις εταιρείες των ΗΠΑ, οι οποίες συνήθως απαιτούν 16.000 GPU . Αυτό επιτεύχθηκε χρησιμοποιώντας τις λιγότερο προηγμένες GPU H800 αντί της ανώτερης H100, ωστόσο το DeepSeek παρείχε συγκρίσιμες επιδόσεις.
Έτσι, το μοντέλο χαμηλού κόστους της DeepSeek αμφισβητεί τη συμβατική σοφία ότι η πολυπλοκότητα των μεγάλων μοντέλων ισοδυναμεί με τεράστια συσσώρευση υπολογιστικής ισχύος. Αυτή η εξέλιξη δυνητικά σπάει την εξάρτηση από τα τσιπ τεχνητής νοημοσύνης των ΗΠΑ εν μέσω εμπάργκο ημιαγωγών, εγείροντας έτσι ερωτήματα σχετικά με τις παραδοσιακές πολιτικές που επικεντρώνονται στον έλεγχο της υπολογιστικής ισχύος υψηλής τεχνολογίας.
Ασαφείς Κόστος
Ωστόσο, υπάρχουν πολλές πτυχές της συζήτησης γύρω από το μοντέλο DeepSeek-V3 που απαιτούν περαιτέρω διευκρίνιση. Το μοντέλο V3 είναι στο ίδιο επίπεδο με το GPT-4, ενώ το μοντέλο R1, που κυκλοφόρησε αργότερα τον Ιανουάριο του 2025, αντιστοιχεί στο προηγμένο μοντέλο o1 του OpenAI. Το αναφερόμενο κόστος των 5,576 εκατομμυρίων δολαρίων αφορά συγκεκριμένα το DeepSeek-V3, όχι το μοντέλο R1. Αυτός ο αριθμός δεν περιλαμβάνει το συνολικό κόστος εκπαίδευσης, καθώς δεν περιλαμβάνει δαπάνες που σχετίζονται με την ανάπτυξη αρχιτεκτονικής, τα δεδομένα και την προηγούμενη έρευνα.
Το μοντέλο V3 εκπαιδεύτηκε χρησιμοποιώντας σύνολα δεδομένων που δημιουργήθηκαν από μια εσωτερική έκδοση του μοντέλου R1 πριν από την επίσημη κυκλοφορία του. Αυτή η προσέγγιση είχε ως στόχο να αξιοποιήσει την υψηλή ακρίβεια των δεδομένων συλλογιστικής που δημιουργούνται από το R1 , σε συνδυασμό με τη σαφήνεια και τη συνοπτικότητα των τακτικά μορφοποιημένων δεδομένων. Ωστόσο, η τεκμηρίωση αυτών των σχετικών δαπανών παραμένει άγνωστη, ιδιαίτερα όσον αφορά τον τρόπο με τον οποίο τα έξοδα για την ανάπτυξη δεδομένων και αρχιτεκτονικής από το R1 ενσωματώνονται στο συνολικό κόστος του V3.
Αυξητική καινοτομία, όχι διαταραχή
Από την άποψη του τεχνολογικού ανταγωνισμού, οι εξελίξεις της DeepSeek σε θεμελιώδεις τεχνολογίες LLM όπως το Multi-head Latent Attention (MLA) και το Mixture-of-Experts (MoE) επιδεικνύουν βελτιώσεις στην απόδοση. Ωστόσο, αυτές οι εξελίξεις δεν θα πρέπει να προκαλούν υπερβολική ανησυχία μεταξύ των υπευθύνων χάραξης πολιτικής, καθώς αυτές οι τεχνολογίες δεν είναι αυστηρά προστατευμένα μυστικά.
Τούτου λεχθέντος, υπάρχει πραγματική καινοτομία πίσω από τον τρέχοντα ενθουσιασμό γύρω από τα επιτεύγματα του DeepSeek. Η τεχνολογία MLA ενισχύει τους παραδοσιακούς μηχανισμούς προσοχής χρησιμοποιώντας συμπίεση χαμηλής βαθμίδας πινάκων κλειδιών και τιμών. Αυτό μειώνει δραστικά το μέγεθος της κρυφής μνήμης Key-Value (KV), με αποτέλεσμα τη μείωση της χρήσης μνήμης κατά 6,3 φορές σε σύγκριση με τις τυπικές δομές Multi-Head Attention (MHA) , μειώνοντας έτσι το κόστος εκπαίδευσης και εξαγωγής συμπερασμάτων. Η DeepSeek φαίνεται επίσης να είναι η πρώτη εταιρεία που ανέπτυξε με επιτυχία ένα μεγάλης κλίμακας αραιό μοντέλο MoE, επιδεικνύοντας την ικανότητά της να ενισχύει την αποτελεσματικότητα του μοντέλου και να μειώνει το κόστος επικοινωνίας μέσω τεχνικών εξισορρόπησης ειδικών.
Αν και αυτές οι εξελίξεις είναι ασυνήθιστες, μπορεί απλώς να αντιπροσωπεύουν επαναληπτικές βελτιώσεις στον τομέα της τεχνητής νοημοσύνης και όχι ένα ανατρεπτικό άλμα που θα μπορούσε να αλλάξει τη συνολική ισορροπία τεχνολογικής ισχύος.
Πράγματι, ούτε το DeepSeek-V3 ούτε το μοντέλο R1 αντιπροσωπεύουν την κορυφή της τεχνολογίας αιχμής. Το πλεονέκτημά τους πηγάζει από την απόδοση συγκρίσιμων με τα αντίστοιχα των ΗΠΑ αλλά με σημαντικά χαμηλότερο κόστος. Από αυτή την άποψη, είναι φυσικό να αμφισβητηθεί η σχέση κόστους-αποτελεσματικότητας της φαινομενικά υπερβολικής αναπτυξιακής προσέγγισης που υιοθετήθηκε από την αμερικανική τεχνολογική βιομηχανία για να εξισώσει την καθαρή υπολογιστική ισχύ με την πολυπλοκότητα των μοντέλων τεχνητής νοημοσύνης.
Ωστόσο, αυτός ο τύπος οικονομικά αποδοτικής καινοτομίας συχνά δεν είναι το επίκεντρο εκείνων που βρίσκονται στην πρώτη γραμμή της τεχνολογίας, που είναι εξοπλισμένοι με άφθονους, προηγμένους πόρους. Η αρχική επανάληψη οποιασδήποτε καινοτομίας συνήθως συνεπάγεται υψηλά έξοδα. Ωστόσο, καθώς εμφανίζονται καινοτομίες που περιορίζουν το κόστος, μειώνουν τα έξοδα, επιτρέποντας στους καθυστερημένους, ιδιαίτερα σε περιοχές όπως η Κίνα, να υιοθετήσουν γρήγορα αυτές τις εξελίξεις και να φτάσουν τους ηγέτες με μειωμένο κόστος.
Όρια των κυρώσεων τσιπ των ΗΠΑ
Η προσέγγιση του DeepSeek, που αναδεικνύει το πλεονέκτημα του καθυστερημένου χρήστη μέσω του μειωμένου κόστους εκπαίδευσης, έχει πυροδοτήσει μια συζήτηση σχετικά με την πραγματική ανάγκη για εκτεταμένη υπολογιστική ισχύ σε μοντέλα τεχνητής νοημοσύνης. Οι επικριτές αμφισβητούν εάν η Κίνα χρειάζεται πραγματικά να εξαρτάται από προηγμένα τσιπ των ΗΠΑ , αμφισβητώντας την πολιτική υψηλής τεχνολογίας που επικεντρώνεται στους υπολογιστές που καθοδηγεί το τρέχον σύστημα ελέγχου των εξαγωγών ημιαγωγών της Ουάσιγκτον. Εάν η ισοτιμία απόδοσης μπορεί να επιτευχθεί με μάρκες χαμηλότερης βαθμίδας, τότε το premium για μάρκες υψηλότερης βαθμίδας μπορεί να είναι αδικαιολόγητο.
Ωστόσο, αυτό μπορεί να είναι μια παρεξήγηση, καθώς τα τσιπ υψηλότερης βαθμίδας προσφέρουν γενικά μεγαλύτερη απόδοση. Σε οικονομικούς όρους, δεν θα ήταν πρακτικό για οποιεσδήποτε εταιρείες με έδρα την Κίνα όπως το DeepSeek να αποφύγουν τη χρήση πιο προηγμένων τσιπ εάν ήταν προσβάσιμα.
Επιπλέον, η μείωση του κόστους εκπαίδευσης που ενδεχομένως μειώνει τις αμοιβές των χρηστών σηματοδοτεί μείωση των οικονομικών εμποδίων στην υιοθέτηση υπηρεσιών τεχνητής νοημοσύνης. Η παγκόσμια βιομηχανία τεχνητής νοημοσύνης είναι πιθανό να δει αύξηση, αντί μείωση, στη ζήτηση για υπολογιστική ισχύ καθώς εντείνεται ο ανταγωνισμός μεταξύ των υπηρεσιών. Για να συνεχίσει η Κίνα στην κούρσα της τεχνητής νοημοσύνης, θα χρειαστεί μια συνεχής παροχή πιο εξελιγμένων τσιπ υψηλών προδιαγραφών.
Από αυτή την άποψη, ο νόμος της κλιμάκωσης εξακολουθεί να ισχύει. Το DeepSeek μόλις απέδειξε ότι μπορούν να επιτευχθούν συγκρίσιμα αποτελέσματα με λιγότερες επενδύσεις κεφαλαίου – τουλάχιστον με μαθηματικούς όρους. Στο μέτωπο του υλικού, αυτό μεταφράζεται σε πιο αποτελεσματική απόδοση με λιγότερους πόρους, κάτι που είναι επωφελές για τη συνολική βιομηχανία AI. Και αν η διαταραχή της οικονομικής απόδοσης του DeepSeek αποδειχθεί εφικτή, δεν υπάρχει κανένας λόγος για τον οποίο οι αμερικανικές εταιρείες τεχνητής νοημοσύνης δεν μπορούν να προσαρμοστούν και να συμβαδίσουν.
Εξαγωγή αγώνα τιμολόγησης AI της Κίνας
Τι πρέπει, λοιπόν, να ανησυχούν πραγματικά οι Ηνωμένες Πολιτείες και οι σύμμαχοί τους; Το βασικό ερώτημα είναι: Τι θα συμβεί αν οι κινεζικές υπηρεσίες τεχνητής νοημοσύνης μπορούν να προσφέρουν απόδοση συγκρίσιμη με τις αντίστοιχες αμερικανικές σε χαμηλότερες τιμές; Το DeepSeek αποτελεί παράδειγμα ενός σεναρίου ανάπτυξης που οι υπεύθυνοι χάραξης πολιτικής θα πρέπει να παρακολουθούν στενά – η Κίνα ξεκινά έναν παγκόσμιο πόλεμο τιμών στις υπηρεσίες τεχνητής νοημοσύνης, μια μάχη που έχει ήδη ξεκινήσει στο εσωτερικό.
Το πραγματικό κόστος εκπαίδευσης των μοντέλων DeepSeek-V3 και R1 παραμένει ασαφές. Και το κοινό γνωρίζει πολύ λίγα για το αν επιτυγχάνει τέτοια απόδοση χρησιμοποιώντας μόνο GPU H800 χαμηλότερης βαθμίδας. Η πρακτικότητα αυτών των ισχυρισμών δεν έχει ακόμη καθοριστεί. Αλλά εδώ είναι σημαντικό να μην συγχέουμε το κόστος με την τιμή. Οι ακριβείς δαπάνες της DeepSeek είναι αβέβαιες και δεν είναι σαφές εάν η εταιρεία έχει χρησιμοποιήσει αμερικανικά μοντέλα για να εκπαιδεύσει τα δικά της με τρόπους που ενδέχεται να παραβιάζουν τους όρους παροχής υπηρεσιών . Ένα πράγμα που γνωρίζουμε με βεβαιότητα είναι ότι η DeepSeek προσφέρει τις υπηρεσίες AI σε εξαιρετικά χαμηλές τιμές.
Για παράδειγμα, το DeepSeek-R1 χρεώνει μόλις 0,14 $ ανά εκατομμύριο διακριτικά εισόδου (όταν χρησιμοποιούνται αποθηκευμένα δεδομένα) και 2,19 $ ανά εκατομμύριο διακριτικά εξόδου . Αντίθετα, το μοντέλο o1 του OpenAI κοστίζει 1,25 $ ανά εκατομμύριο μάρκες εισόδου στην κρυφή μνήμη και 10,00 $ ανά εκατομμύριο διακριτικά εξόδου . Αυτό σημαίνει ότι το DeepSeek-R1 είναι σχεδόν εννέα φορές φθηνότερο για μάρκες εισόδου και περίπου τεσσεράμισι φορές φθηνότερο για μάρκες εξόδου σε σύγκριση με το o1 του OpenAI.
Η ανταγωνιστική τιμολόγηση του DeepSeek, κατά μία έννοια, μπορεί να θεωρηθεί ως μια διεθνής προβολή του πολέμου τιμών των εγχώριων υπηρεσιών τεχνητής νοημοσύνης της Κίνας το 2024. Για παράδειγμα, η Alibaba μείωσε την τιμή του Qwen-Long της κατά 97 τοις εκατό τον Μάιο του περασμένου έτους και μείωσε περαιτέρω το κόστος του μοντέλου οπτικής γλώσσας, Qwen-VL , κατά 85 τοις εκατό τον Δεκέμβριο. Ωστόσο, σε αντίθεση με το DeepSeek, πολλές κινεζικές εταιρείες τεχνητής νοημοσύνης έχουν μειώσει τις τιμές τους επειδή τα μοντέλα τους δεν διαθέτουν ανταγωνιστικότητα, γεγονός που καθιστά δύσκολο τον ανταγωνισμό των ομολόγων των ΗΠΑ. Ακόμη και με αυτές τις μειώσεις τιμών, η προσέλκυση πελατών υψηλής ποιότητας παραμένει πρόκληση. Αντίθετα, το DeepSeek προσφέρει απόδοση συγκρίσιμη με ανταγωνιστικά προϊόντα, καθιστώντας την τιμολόγησή του πραγματικά ελκυστική.
Για τους δημοκρατικούς συμμάχους, η άνοδος των κινεζικών υπηρεσιών τεχνητής νοημοσύνης που είναι και προσιτές και εξαιρετικά αποτελεσματικές εγείρει δύο βασικούς στρατηγικούς προβληματισμούς, ειδικά υπό το φως των πρόσφατων πρωτοβουλιών κυρίαρχης τεχνητής νοημοσύνης. Πρώτον, υπάρχουν κίνδυνοι για την εθνική ασφάλεια, ιδίως που σχετίζονται με το απόρρητο των δεδομένων και την πιθανή χειραγώγηση των αποτελεσμάτων . Δεύτερον, η επιθετική τιμολόγηση της Κίνας στις υπηρεσίες τεχνητής νοημοσύνης αποτελεί απειλή για την ανάπτυξη των βιομηχανιών τεχνητής νοημοσύνης σε άλλες χώρες, μοιάζοντας με τις πρακτικές ντάμπινγκ που παρατηρήθηκαν προηγουμένως με ηλιακούς συλλέκτες και ηλεκτρικά οχήματα στην Ευρώπη και την Αμερική.
Εάν εκτυλιχθεί αυτό το σενάριο, πρέπει να αναγνωρίσουμε ότι το πλεονέκτημα τιμής της τεχνητής νοημοσύνης της Κίνας είναι απίθανο να οφείλεται αποκλειστικά στο μειωμένο κόστος εκπαίδευσης, το οποίο άλλες εταιρείες ενδέχεται να υιοθετήσουν σύντομα. Θα πρέπει επίσης να δοθεί προσοχή σε μη εμπορικούς μηχανισμούς, όπως οι κρατικές επιδοτήσεις, που θα μπορούσαν να προσφέρουν στην Κίνα ανταγωνιστικό πλεονέκτημα στο μέλλον.