Ο μη εξουσιοδοτημένος κλώνος AI «David Attenborough» λέει για τη ζωή του προγραμματιστή και γίνεται ιογενής – Ars Technica

By | November 17, 2023

Στιγμιότυπο από ένα βίντεο επίδειξης ενός μη εξουσιοδοτημένου ψεύτικου David Attenborough που αφηγείται τη ροή βίντεο ενός προγραμματιστή.
Μεγέθυνση / Στιγμιότυπο οθόνης ενός βίντεο επίδειξης μιας μη εξουσιοδοτημένης φωνής του David Attenborough που δημιουργήθηκε από AI που αφηγείται τη ροή βίντεο ενός προγραμματιστή.

Τσάρλι Χολτζ

Την Τετάρτη, ο προγραμματιστής του Replicate, Charlie Holtz, συνδύασε το GPT-4 Vision (κοινώς γνωστό ως GPT-4V) και την τεχνολογία κλωνοποίησης φωνής από την ElevenLabs για να δημιουργήσει μια μη εξουσιοδοτημένη έκδοση AI του διάσημου φυσιοδίφη David Attenborough που αφηγείται κάθε κίνηση του Holtz μπροστά στην κάμερα. Από το απόγευμα της Πέμπτης, το X post που περιγράφει το κόλπο είχε συγκεντρώσει περισσότερα από 21.000 likes.

«Έχουμε εδώ ένα αξιόλογο δείγμα του Homo sapiens διακρίνεται από τα ασημένια στρογγυλά γυαλιά του και τη χαίτη από ανακατεμένες σγουρές κλειδαριές», λέει ο ψεύτικος Attenborough στο demo ενώ ο Holtz τον κοιτάζει με ένα χαμόγελο. μέρος της ερωτοτροπίας της».

«Κοιτάξτε προσεκτικά το λεπτό τόξο του φρυδιού της», συνεχίζει, σαν να ήταν μια αφήγηση από ντοκιμαντέρ του BBC για την άγρια ​​ζωή. “Είναι σαν να βρίσκεται στη μέση μιας περίπλοκης τελετουργίας περιέργειας ή σκεπτικισμού. Το σκηνικό υποδηλώνει έναν προστατευμένο βιότοπο, πιθανώς μια κοινή περιοχή τροφοδοσίας ή ποτίσματος.”

Πως δουλεύει? Κάθε πέντε δευτερόλεπτα, ένα σενάριο Python που ονομάζεται “αφηγητής” παίρνει μια φωτογραφία από την κάμερα web του Holtz και τη μεταδίδει στο GPT-4V (η έκδοση του μοντέλου γλώσσας του OpenAI που μπορεί να επεξεργαστεί την είσοδο εικόνας) μέσω ενός API, το οποίο έχει μια ειδική προτροπή για να δημιουργήσει κείμενο στο ύφος των αφηγήσεων του Attenborough. Στη συνέχεια, τροφοδοτεί αυτό το κείμενο σε ένα φωνητικό προφίλ τεχνητής νοημοσύνης ElevenLabs, εκπαιδευμένο από δείγματα ήχου της ομιλίας του Attenborough. Ο Holtz έδωσε τον κώδικα (που ονομάζεται “αφηγητής”) που τα συγκεντρώνει όλα στο GitHub και απαιτεί διακριτικά API για το OpenAI και το ElevenLabs που κοστίζουν χρήματα για την εκτέλεση.

Αν και ορισμένες από αυτές τις λειτουργίες είναι διαθέσιμες ξεχωριστά εδώ και αρκετό καιρό, οι προγραμματιστές άρχισαν πρόσφατα να πειραματίζονται με το συνδυασμό αυτών των χαρακτηριστικών μέσω της διαθεσιμότητας των API, τα οποία μπορούν να δημιουργήσουν εκπληκτικά demos όπως αυτό.

Κατά τη διάρκεια του βίντεο επίδειξης, όταν ο Χολτς κρατά ένα φλιτζάνι και πίνει ένα ποτό, ο παρωδός αφηγητής του Attenborough λέει: “Α, στο φυσικό του περιβάλλον παρατηρούμε το εκλεπτυσμένο Homo sapiens συμμετέχουν στο κρίσιμο τελετουργικό της ενυδάτωσης. Αυτό το αρσενικό άτομο επέλεξε ένα μικρό κυλινδρικό δοχείο, πιθανότατα γεμάτο με ζωτικό Η.2O, και το γέρνει προσεκτικά προς τη θύρα εισαγωγής του. Τέτοια χάρη, τέτοια ισορροπία. »

Σε ένα άλλο demo που δημοσιεύτηκε στο X από τον Pietro Schirano, μπορείτε να ακούσετε την κλωνοποιημένη φωνή του Steve Jobs να κριτικάρει τα σχέδια που δημιουργήθηκαν στο Figma, μια εφαρμογή σχεδιασμού. Ο Schirano χρησιμοποίησε μια παρόμοια τεχνική, με μια εικόνα που μεταδόθηκε μέσω GPT-4V μέσω ενός API (το οποίο ζητήθηκε να ανταποκριθεί με το στυλ του Jobs) και στη συνέχεια τροφοδοτήθηκε σε έναν κλώνο της φωνής του Jobs από την ElevenLabs.

Έχουμε ήδη συζητήσει την τεχνολογία κλωνοποίησης φωνής, η οποία εγείρει πολλές ηθικές και νομικές ανησυχίες, καθώς το λογισμικό δημιουργεί πειστικές απομιμήσεις της φωνής ενός ατόμου, κάνοντάς τους να «λένε» πράγματα που το πραγματικό άτομο δεν είπε ποτέ. Αυτό έχει νομικές συνέπειες σχετικά με τα δικαιώματα δημοσιότητας μιας διασημότητας και στο παρελθόν είχε χρησιμοποιηθεί για να εξαπατήσει ανθρώπους, προσποιώντας τις φωνές των αγαπημένων τους προσώπων σε αναζήτηση χρημάτων. Οι όροι υπηρεσίας του ElevenLabs απαγορεύουν στους χρήστες να δημιουργούν κλώνους της φωνής άλλων ανθρώπων με τρόπο που παραβιάζει τα “δικαιώματα πνευματικής ιδιοκτησίας, τα δικαιώματα δημοσιότητας και τα πνευματικά δικαιώματα”, αλλά είναι ένας κανόνας που μπορεί να είναι δύσκολο να εφαρμοστεί.

Προς το παρόν, ενώ μερικοί άνθρωποι έχουν εκφράσει βαθιά δυσφορία στην ιδέα ότι κάποιος μιμείται τη φωνή του Attenborough χωρίς άδεια, πολλοί άλλοι φαίνονται μπερδεμένοι από το demo. “Εντάξει, θα ζητήσω από τον David Attenborough να αφηγηθεί βίντεο με το μωρό μου που μαθαίνει να τρώει μπρόκολο”, αστειεύτηκε ο Jeremy Nguyen σε μια απάντηση με αξιολόγηση Χ.

Category: A.I

Leave a Reply

Your email address will not be published. Required fields are marked *