Το Big Cloud αναπτύσσει χιλιάδες GPU για τεχνητή νοημοσύνη – αλλά οι περισσότερες φαίνονται ανεπαρκώς αξιοποιημένες • The Register

By | January 16, 2024

Οι πάροχοι cloud έχουν αναπτύξει δεκάδες χιλιάδες GPU και επιταχυντές τεχνητής νοημοσύνης στον αγώνα τους για να επωφεληθούν από την αύξηση της ζήτησης για μοντέλα μεγάλων γλωσσών.

Ωστόσο, παρά αυτές τις τεράστιες αναπτύξεις, τα στοιχεία δείχνουν ότι η πλειονότητα αυτών των επεξεργαστών υποχρησιμοποιούνται, λέει ο Owen Rogers, αναλυτής στο TechInsights. Το μητρώο.

Σύμφωνα με τις εκτιμήσεις της εταιρείας αναλυτών, μόνο το 2023, 878.000 επιταχυντές παρήγαγαν επτά εκατομμύρια ώρες εργασίας GPU, που η ερευνητική ομάδα εκτιμά ότι είναι περίπου 5,8 δισεκατομμύρια δολάρια σε έσοδα.

Παρόλο που οι πάροχοι cloud δεν συνηθίζουν να μοιράζονται τα πραγματικά επίπεδα χρήσης τους, ο Rogers επισημαίνει ότι εάν τα συμπλέγματα GPU λειτουργούσαν κοντά στη χωρητικότητα, αυτό το ποσοστό εσόδων θα ήταν σημαντικά υψηλότερο.

Χρησιμοποιώντας συμπλέγματα AWS UltraScale, το καθένα αποτελείται από 20.000 GPU Nvidia H100 που μπορούν να ενοικιαστούν σε περιπτώσεις των οκτώ, με τιμή 98,32 $/ώρα. Ο Rogers λέει ότι αν υποθέσουμε ότι ένα cluster ανά περιοχή λειτουργεί 100% όλο το χρόνο, η Amazon θα συγκεντρώσει σχεδόν 6,5 δισεκατομμύρια δολάρια ετησίως.

«Στην πραγματικότητα, εάν κάθε τύπος επιταχυντή που προσφέρεται από την AWS σήμερα βρισκόταν σε ένα σύμπλεγμα 20.000 σε κάθε περιοχή στην οποία είναι επί του παρόντος διαθέσιμοι και πωλούνται 24 ώρες την ημέρα, θα παρήγαγαν το 50% των εσόδων της AWS για το 2023», έγραψε ο Rogers. . σε μελλοντική αναφορά.

Επομένως, η μόνη λογική εξήγηση είναι ότι αυτοί οι επιταχυντές δεν χρησιμοποιούνται αποτελεσματικά.

Ο Rogers αναγνωρίζει ότι πολλοί πάροχοι cloud χρησιμοποιούν επιταχυντές για εσωτερικούς φόρτους εργασίας, κάτι που μπορεί να παραμορφώσει κάπως αυτό το συμπέρασμα, αλλά λέει ότι για να είναι βιώσιμα, τα συστήματα πρέπει να παράγουν έσοδα για το επενδυτικό υλικό που αξίζει τον κόπο.

Ωστόσο…

Το πρόβλημα φαίνεται να σχετίζεται με τον τρόπο με τον οποίο οι χρήστες καταναλώνουν συνήθως τις υπηρεσίες cloud. Το cloud προσφέρει αξία με πολλούς τρόπους, πιστεύει ο Rogers. Το πρώτο είναι ότι οι πελάτες μπορούν να αναπτύξουν και να κλιμακώσουν τις εφαρμογές τους χωρίς προειδοποίηση. Το δεύτερο είναι η παροχή πρόσβασης σε τεχνολογίες αιχμής σε ένα μοντέλο που βασίζεται αποκλειστικά στην κατανάλωση.

Οι επιταχυντές εμπίπτουν σε μεγάλο βαθμό στη δεύτερη κατηγορία, εν μέρει λόγω του υψηλού κόστους τους σε σύγκριση με τα σύγχρονα συστήματα. Ως αδελφική τοποθεσία Η επόμενη πλατφόρμα Όπως έχουμε καλύψει προηγουμένως, η ζήτηση για GPU για την τροφοδοσία φόρτου εργασίας με τεχνητή νοημοσύνη είναι τόσο μεγάλη που κάποια στιγμή οι άνθρωποι πουλούσαν κάρτες PCIe H100 για έως και 40.000 $ το τεμάχιο στο eBay. Για πελάτες που δεν εκτελούν συνεχώς φόρτους εργασίας τεχνητής νοημοσύνης, η εκτέλεση αυτής της εργασίας στο cloud μάλλον μου φαίνεται λιγότερο δαπανηρή από τη δημιουργία του δικού τους συμπλέγματος.

Αλλά η φύση του cloud σημαίνει ότι εταιρείες όπως η AWS ή η Microsoft πρέπει να παρέχουν πολύ μεγαλύτερη χωρητικότητα από ό,τι σχεδιάζουν να πουλήσουν, με άλλα λόγια, πρέπει να σχεδιάσουν για τις κορυφές της ζήτησης, λέει ο Rogers.

Αξίζει επίσης να σημειωθεί ότι, με λίγες εξαιρέσεις, οι GPU δεν προσφέρονται για υπερπαροχή με τον ίδιο τρόπο που κάνουν οι CPU. Συνήθως, οι GPU μεταβιβάζονται σε ένα VM ή ένας ολόκληρος διακομιστής διατίθεται στον πελάτη.

Ορισμένοι πάροχοι cloud, ειδικά οι μικρότεροι, εξειδικευμένοι παίκτες, εκμεταλλεύονται την τεχνολογία GPU πολλαπλών περιπτώσεων της Nvidia, η οποία επιτρέπει στον επιταχυντή να χωριστεί σε πολλαπλές GPU. Άλλοι, εν τω μεταξύ, χρησιμοποιούν μια τεχνική που ονομάζεται time slicing για να εκτελέσουν πολλαπλούς φόρτους εργασίας στην ίδια GPU.

Τούτου λεχθέντος, στην εποχή των μεγάλων γλωσσικών μοντέλων, οι περισσότεροι πελάτες δεν πρόκειται να χρησιμοποιήσουν κλασματικές GPU, ειδικά για φόρτους εργασίας εκπαίδευσης που μπορεί να απαιτούν εκατοντάδες ή και χιλιάδες τέτοια συστήματα.

Ο Rogers υποψιάζεται επίσης έντονα ότι οι αναφορές για ελλείψεις χωρητικότητας για επιταχυντές έχουν να κάνουν περισσότερο με τα σημεία συμφόρησης πόρων και τον προγραμματισμό παρά οτιδήποτε άλλο.

«Νομίζω ότι αυτό που συμβαίνει είναι ότι υπάρχει μεγάλη ζήτηση για αυτούς τους επιταχυντές, αλλά ίσως η ζήτηση εμφανίζεται ακριβώς την ίδια στιγμή, γεγονός που προκαλεί σύγκρουση».

Με άλλα λόγια, εάν έχετε πέντε άτομα που θέλουν όλοι 8.000 GPU για να εκπαιδεύσουν το μοντέλο τους, αλλά έχετε μόνο 20.000 GPU σε κυκλοφορία, ορισμένοι από αυτούς τους πελάτες θα πρέπει να περιμένουν.

Και όπως επισημαίνει ο Rogers, υπάρχουν στοιχεία που το υποστηρίζουν. Κατά τη διάρκεια του περασμένου έτους, η AWS και το Google Cloud παρουσίασαν υπηρεσίες προγραμματισμού που έχουν σχεδιαστεί για να συμβάλλουν στη βελτιστοποίηση του κόστους, της διαθεσιμότητας και στη βελτίωση της χρήσης.

Μπορεί η αφαίρεση να βοηθήσει;

Όπως αναφέραμε προηγουμένως, οι περισσότερες παρουσίες GPU προσφέρονται ως εικονικές μηχανές και γυμνοί μεταλλικοί διακομιστές. Όμως, όπως σημειώνει ο Rogers, αυτός δεν είναι ο μόνος τρόπος κατανάλωσης πόρων AI στο cloud, αναφέροντας ως παράδειγμα την πλατφόρμα SageMaker της Amazon.

Αυτές οι υπηρεσίες απλοποιούν την ανάπτυξη ενός φόρτου εργασίας AI/ML. “Το επιχείρημά τους θα ήταν: Εάν δεν μπορείτε να αποκτήσετε τη χωρητικότητα, εάν έχετε πρόβλημα να μάθετε πότε να χρησιμοποιήσετε τη χωρητικότητα ή πώς να σχεδιάσετε, μπορείτε να το μεταφέρετε στην πλατφόρμα μας και θα τα κάνουμε όλα για εσάς.” , σημειώνει.

Τα υψηλά επίπεδα αφαίρεσης σημαίνουν επίσης ότι οι πελάτες δεν χρειάζεται να σκεφτούν για ποιον επιταχυντή να βελτιστοποιήσουν. Ενώ η Nvidia είναι ο κυρίαρχος παίκτης στο υλικό τεχνητής νοημοσύνης, όλοι οι μεγάλοι πάροχοι cloud έχουν αναπτύξει το δικό τους προσαρμοσμένο πυρίτιο και οι GPU MI300X της AMD που ανακοινώθηκαν πρόσφατα υιοθετούνται ήδη από τη Microsoft και άλλους.

Ο Rogers πιστεύει ότι με την πάροδο του χρόνου, οι δεξιότητες των ανθρώπων θα μπορούσαν να εξελιχθούν σε πλατφόρμες όπως το SageMaker. Αλλά «αν είστε τώρα κωδικοποιητής που κατανοεί τη μηχανική εκμάθηση και την τεχνητή νοημοσύνη, πιθανότατα είστε κωδικοποιητής που κατανοεί τις GPU και τον τρόπο χρήσης τους. Αν και πιθανότατα δεν καταλαβαίνετε το SageMaker ή τα αντίστοιχα της Google ή της Microsoft… Είναι πιθανώς πιο εύκολο σε αυτό το σημείο να κάνετε αυτό που γνωρίζετε από το να μάθετε μια εντελώς νέα πλατφόρμα», δήλωσε.

Πού αφήνει αυτό το GPU bit barns;

Φυσικά, οι πάροχοι cloud δεν είναι τα μόνα μέρη στα οποία μπορείτε να νοικιάσετε GPU. Αρκετοί πάροχοι συντοπισμού και υπηρεσιών μετάλλου, όπως το CoreWeave, έχουν εμφανιστεί τα τελευταία χρόνια για να καλύψουν τη ζήτηση για μεγάλης κλίμακας αναπτύξεις GPU.

Αυτές οι εταιρείες προσφέρουν συχνά πολύ πιο ανταγωνιστικές τιμές για GPU. Το CoreWave προσφέρει H100s με μόλις 2,23 $ την ώρα – εάν είστε διατεθειμένοι να δεσμευτείτε αρκετά.

Και ενώ ο Rogers πιστεύει ότι εταιρείες όπως η CoreWeave έχουν τη θέση τους στην αγορά, λέει ότι είναι οι πλέον κατάλληλες για πελάτες που θέλουν να εκτελέσουν τεράστιους φόρτους εκπαίδευσης σε σύντομο χρονικό διάστημα. «Πιστεύω ότι θα υπάρξουν μακροπρόθεσμες προκλήσεις για αυτούς».

Μια τέτοια πρόκληση είναι τα τέλη εξόδου για όσους έχουν ήδη επενδύσει σε αποθήκευση cloud. Εάν έχετε τα δεδομένα σας στο AWS, θα σας κοστίσει χρήματα για να μετακινήσετε αυτά τα δεδομένα σε ένα αγρόκτημα GPU για να τα επεξεργαστείτε, εξήγησε ο Rogers.

Για εταιρείες που δημιουργούν LLM από την αρχή, το κόστος μεταφοράς δεδομένων είναι πιθανότατα ασήμαντο και επομένως η χρήση των υπηρεσιών του CoreWeave και άλλων μπορεί να έχει νόημα. Από την άλλη πλευρά, εάν είστε μια μικρή επιχείρηση που επαναχρησιμοποιείτε ένα Llama 2 7B για να χρησιμεύσει ως βελτιωμένο chatbot εξυπηρέτησης πελατών, πιθανότατα θα είναι πιο λογικό να εκτελέσετε αυτόν τον φόρτο εργασίας στο cloud.

“Εάν θέλετε να δημιουργήσετε μια εφαρμογή που χρησιμοποιεί όλες αυτές τις GPU, τότε ένας πάροχος cloud υπερκλίμακας θα έχει αναπόφευκτα περισσότερες από τις υπηρεσίες που χρειάζεστε”, είπε.

Και ενώ το CoreWeave μπορεί να είναι φθηνότερο σε κλίμακα, ο Rogers τόνισε ότι αυτό μπορεί και πιθανότατα θα αλλάξει. «Οι υπερκλιμάκωσης έχουν αρκετά έσοδα και αγοραστική δύναμη που αν το ήθελαν πραγματικά, θα μπορούσαν να ρίξουν τις τιμές των επιταχυντών πολύ χαμηλά και να τις υποτιμήσουν», είπε.

“Είναι πολύ μεγαλύτερα, έχουν μεγαλύτερη αγοραστική δύναμη, έχουν περιθώρια κέρδους που μπορούν να χτυπήσουν επειδή μπορούν να καλύψουν τα περιθώρια άλλων υπηρεσιών.”

Για τον Rogers, αν και υπάρχει πολλή διαφημιστική εκστρατεία γύρω από την τεχνητή νοημοσύνη, για να είναι χρήσιμη πρέπει να συνδεθεί με άλλες υπηρεσίες. «Χρειαζόμαστε ακόμα επεξεργαστές, χρειαζόμαστε τόνους αποθηκευτικού χώρου, χρειαζόμαστε πολλή μνήμη και επομένως δεν νομίζω ότι η τεχνητή νοημοσύνη θα καταναλώσει το σύννεφο». ®

Category: A.I

Leave a Reply

Your email address will not be published. Required fields are marked *