Το Ideogram είναι μια νέα συσκευή δημιουργίας εικόνων AI που εκπλήσσει τον ανταγωνισμό, ξεπερνώντας τα MidJourney και Dall-E 3

By | March 3, 2024

Η Ideogram AI, μια startup που ιδρύθηκε από πρώην μηχανικούς της Google μαζί με μέλη αναγνωρισμένων ιδρυμάτων όπως το UC Berkeley, το Carnegie Mellon University και το Πανεπιστήμιο του Τορόντο, ανακοίνωσε την κυκλοφορία της πρώτης πλήρους έκδοσης της ομώνυμης συσκευής δημιουργίας εικόνων.

«Είμαστε ενθουσιασμένοι που κυκλοφορούμε το Ideogram 1.0, το πιο προηγμένο μοντέλο μετατροπής κειμένου σε εικόνα μέχρι τώρα», ανέφερε η Ideogram AI σε μια επίσημη ανάρτηση ιστολογίου. «Εκπαιδευμένο από την αρχή, όπως όλα τα πρότυπα Ideogram, το Ideogram 1.0 προσφέρει χαρακτηριστικά αιχμής: καλλιτεχνική απόδοση κειμένου, πρωτοφανή φωτορεαλισμό και γρήγορη πρόσφυση, καθώς και μια νέα δυνατότητα που ονομάζεται Magic Prompt που σας βοηθά να γράφετε λεπτομερείς προτροπές για όμορφες και δημιουργικές εικόνες.

Αυτή η κυκλοφορία έρχεται μαζί με την ανακοίνωση ενός γύρου συγκέντρωσης κεφαλαίων της Series A $80 εκατομμυρίων με επικεφαλής τον Andreessen Horowitz, μαζί με τους Redpoint Ventures, Pear VC και SV Angel.

Αποκρυπτογράφηση μπόρεσε να δοκιμάσει το μοντέλο και οι ισχυρισμοί του Ideogram AI δεν είναι υπερβολικά υπερβολικοί: μια παράπλευρη σύγκριση μπορεί να βρεθεί παρακάτω. Η πρώτη έκδοση του Ideogram είναι μια αξιοσημείωτη βελτίωση σε σχέση με τους προκατόχους του v0.1 και v0.2: υπερέχει όσον αφορά τη γρήγορη πρόσφυση, την ποιότητα εικόνας και τις δυνατότητες δημιουργίας κειμένου.

Το μοντέλο δεν είναι ανοιχτού κώδικα, επομένως η ορατότητα των υδραυλικών του είναι περιορισμένη και δεν υπάρχουν ερευνητικά έγγραφα για αξιολόγηση. Αλλά τα αποτελέσματα που προέκυψαν με το μοντέλο μιλούν από μόνα τους, καθιστώντας το δυνητικά το καλύτερο μοντέλο που διατίθεται αυτή τη στιγμή, τουλάχιστον μέχρι να κυκλοφορήσει το Stable Diffusion 3 στο κοινό.

Το νέο μοντέλο είναι αναμφισβήτητα η πιο ικανή δημιουργία εικόνων όσον αφορά τις δυνατότητες κειμένου, δημιουργώντας μεγαλύτερες σειρές κειμένου με λιγότερα σφάλματα από το Dall-E 3 ή το MidJourney. Η τρέχουσα δωρεάν βαθμίδα της δίνει επίσης ένα πλεονέκτημα έναντι ανταγωνιστών όπως το Dall-E 3 και το MidJourney, το τελευταίο από τα οποία δεν έχει δωρεάν επίπεδο. Το Microsoft Copilot χρησιμοποιεί επίσης Dall-E 3, αλλά δημιουργεί μόνο τετράγωνες εικόνες 1:1, ενώ το Ideogram υποστηρίζει ένα ευρύτερο σύνολο μορφών εικόνας.

Το Ideogram προσφέρει επίσης δύο πληρωμένα πακέτα των 7 $ και 15 $ το μήνα, τα οποία παρέχουν πρόσβαση σε περισσότερες από 400 εκδόσεις ανά ημέρα μαζί με άλλα πλεονεκτήματα όπως πρόγραμμα επεξεργασίας εικόνων, μεταφορτώσεις υψηλότερης ποιότητας, img2img — που επιτρέπει επεξεργασίες ή παραλλαγές σε μια υπάρχουσα εικόνα — και ιδιωτικές γενιές . . Όλα τα χαμηλότερα επίπεδα εμφανίζουν δημόσια τις ζητούμενες εικόνες.

Το Ideogram είναι σε θέση να κατανοεί μεγάλες προτροπές, να ανταγωνίζεται το Stable Diffusion 3 και να νικάει όλες τις άλλες γεννήτριες εικόνας σε αυτόν τον τομέα.

Ένα από τα πιο αξιοσημείωτα χαρακτηριστικά του Ideogram είναι το “Prompt Magic”, το οποίο μπορεί να ενεργοποιηθεί και να απενεργοποιηθεί. Αυτή η δυνατότητα αναλύει την προτροπή και τη βελτιώνει για τη δημιουργία εικόνων υψηλότερης ποιότητας, δίνοντας ουσιαστικά στο μοντέλο τη δυνατότητα να κατανοεί φυσική γλώσσα όπως το Dall-E 3. Ωστόσο, το Ideogram είναι πιο ευέλικτο επειδή αυτή η δυνατότητα είναι προαιρετική. Είναι πάντα ενεργοποιημένο με το ChatGPT Plus, το οποίο μερικές φορές οδηγεί σε ανακρίβειες.

Τέλος, το Ideogram είναι λιγότερο επιθετικά λογοκριμένο από το MidJourney και το Dall-E 3 και είναι μέχρι στιγμής ικανό να δημιουργεί εικόνες διάσημων προσώπων, λογότυπα εταιρειών και καλλιτεχνικά στυλ. Αυτό δεν αφορά εξ ολοκλήρου το NSFW, αλλά είναι πιο διακριτικό όταν πρόκειται για λογοκρισία των μηνυμάτων.

Και οι πρώτοι δοκιμαστές φαίνεται να προτιμούν το Ideogram από τα άλλα μοντέλα. «Χρησιμοποιώντας ένα πρωτόκολλο αξιολόγησης όπως αυτό του DALL·E 3, διαπιστώνουμε ότι οι ανθρώπινοι αξιολογητές προτιμούν το Ideogram 1.0 έναντι του DALL·E 3 και του Midjourney V6 όσον αφορά τη γρήγορη ευθυγράμμιση, τη συνέπεια της εικόνας, τη συνολική προτίμηση και την ποιότητα απόδοσης κειμένου», ανέφερε η startup.

Σύγκριση δίπλα-δίπλα: Ideogram vs MidJourney vs Dall-E 3

Αποκρυπτογράφηση δοκίμασε τις δυνατότητες του Ideogram και το συνέκρινε με τους κύριους ανταγωνιστές του, το MidJourney και το Dall-E 3. Το Stable Diffusion 3 και το high-end ImageFX της Google δεν βαθμολογούνται εδώ επειδή το SD3 δεν έχει κυκλοφορήσει ακόμη και το ImageFX δεν είναι ακόμη διαθέσιμο. Δεν είναι ευρέως διαθέσιμο.

Δημιουργήστε μεγάλες συμβολοσειρές κειμένου

Προτροπή: Ένα φουτουριστικό Android στην πόλη Cyberpunk με μια πινακίδα που γράφει: “Don’t be late to the AI ​​trend: Emerge by Decrypt”

Generations with Ideogram (αριστερά), MidJourney (κέντρο) και Dall-E 3 (δεξιά).

Το Ideogram AI μπόρεσε να αναπαραστήσει τόσο την ζητούμενη αισθητική όσο και το κείμενο. Υπήρχε, ωστόσο, ένα τυπογραφικό λάθος, που δημιούργησε «εσείς» αντί για «το».

Το MidJourney δεν μπόρεσε να δημιουργήσει συνεκτικό κείμενο και επικεντρώθηκε στη δημιουργία ενός φουτουριστικού android με λεπτομέρειες. Αυτό είναι το κύριο θέμα ολόκληρης της σύνθεσης. Η πόλη δεν είναι καθόλου cyberpunk.

Το Dall-E 3 πέφτει στη μέση. Κατάφερε να δημιουργήσει το φουτουριστικό ρομπότ, η πόλη είναι cyberpunk, αλλά η πινακίδα δεν είχε τη λέξη “Emerge”.

Είναι ενδιαφέρον ότι το Ideogram κατάλαβε ότι το ρομπότ βρισκόταν στην πόλη και συσχετίστηκε με το σημάδι, ενώ ο Dall-E υπέθεσε ότι η πινακίδα ήταν μέρος του αστικού τοπίου.

Μακροχρόνιες προτροπές και χωρικές ικανότητες

Προτροπή: Μια σουρεαλιστική και συναρπαστική σκηνή με μια γάτα σκαρφαλωμένη πάνω σε μια τηλεόραση δίπλα σε μια πινακίδα που γράφει “Emerge”. Στο βάθος, ένα φουτουριστικό android στέκεται στη μία πλευρά και ένας αστροναύτης στην άλλη. Οι τοίχοι του δωματίου είναι διακοσμημένοι με μια εντυπωσιακή εικόνα ενός μορίου DNA και μιας αλυσίδας.

Generations with Ideogram (πάνω), MidJourney (κάτω αριστερά) και Dall-e 3 (κάτω δεξιά)

Το Ideogram ήταν μακράν ο καλύτερος γενικός δημιουργός. Κατάλαβε κάθε μέρος της προτροπής, δημιούργησε το κείμενο χωρίς τυπογραφικά λάθη, κατάλαβε τη θέση κάθε στοιχείου με τη γάτα πάνω από μια τηλεόραση, το πάνελ δίπλα της, το android και τον αστροναύτη σε κάθε πλευρά, και ακόμη κατάλαβε ότι πρέπει να υπάρχει να είναι ένα μόριο DNA και μια αλυσίδα στο παρασκήνιο.

Η αισθητική του MidJourney δεν ήταν σουρεαλιστική, αλλά μάλλον υπερρεαλιστική. Δημιούργησε τη λέξη “Emerge”, αλλά την έβαλε στην τηλεόραση και δεν δημιούργησε το σήμα. Η γάτα είναι επίσης δίπλα στην τηλεόραση και όχι πάνω της. Δεν δημιούργησε το android και δεν ακολούθησε την προτροπή για το φόντο, αντίθετα δημιουργούσε ένα μήνυμα που ταιριάζει καλύτερα στην αισθητική της σύνθεσης, δίνοντας μεγαλύτερη έμφαση στο θέμα (τη γάτα) στην παγκόσμια σκηνή.

Το Dall-E 3 διατήρησε το χαρακτηριστικό του στυλ κινουμένων σχεδίων και δεν μπόρεσε να ακολουθήσει πλήρως την προτροπή. Έχει περισσότερη χωρική κατανόηση και γρήγορη προσκόλληση από το MidJourney, αλλά πολύ λιγότερο από το Ideogram. Ωστόσο, χάνει από άποψη στυλ. Δημιούργησε τη γάτα πάνω από την τηλεόραση, αλλά απέτυχε να δημιουργήσει το σύμβολο Emerge δίπλα στη γάτα. Δεν δημιούργησε το Android και δεν ακολούθησε την προτροπή κατά τη δημιουργία του φόντου.

Λογοκρισία

Προτροπή: ένα καυτό και σέξι κορίτσι.

Generations with Ideogram (αριστερά), MidJourney (κέντρο) και Dall-e 3 (δεξιά)

Η προτροπή δεν περιλαμβάνει καμία γλώσσα που θα μπορούσε να ερμηνευθεί ως ρητορική μίσους ή προσβολές, πολύ λιγότερο ιδιαίτερα σεξουαλική. Άλλωστε, ένα «καυτό, σέξι κορίτσι» μπορεί να είναι πλήρως ντυμένο και να μην σεξουαλοποιείται επιθετικά.

Το Ideogram AI κατανόησε την προτροπή και δημιούργησε μια εικόνα που ταιριάζει με τις οδηγίες. Ωστόσο, το Ideogram έχει έναν συντονιστή τεχνητής νοημοσύνης, ο οποίος ενεργοποιείται όταν χρησιμοποιούνται πιο προφανείς λέξεις και οδηγεί αμέσως σε λογοκριμένη δημιουργία (π.χ. λέξεις αργκό για γεννητικά όργανα ή ετικέτες όπως γυμνό, γυμνό κ.λπ.) .

Το MidJourney και το Dall-E 3, εν τω μεταξύ, απέτυχαν να δημιουργήσουν την εικόνα και απαγόρευσαν τις λέξεις, παρόλο που δεν θα είχαν οδηγήσει σε μια γενιά NSFW.

Το ιδεόγραμμα φαίνεται να είναι πιο στοχευμένο για λογοκρισία και είναι δυνατή η προβολή της εικόνας που δημιουργείται – NSFW ή με άλλο τρόπο αμφισβητήσιμη – προτού αφαιρεθεί από την εφαρμογή.

Διάσημα άτομα και εικόνες με πνευματικά δικαιώματα

Προτροπή: Ο Τζο Μπάιντεν και ο Βλαντιμίρ Πούτιν χαρούμενοι μπροστά σε έναν τοίχο με το κείμενο «Αποκρυπτογράφηση», πιασμένοι χέρι χέρι.

Generations with Ideogram (πάνω), Dall-e 3 (κάτω αριστερά) και MidJourney (κάτω δεξιά)

Το Ideogram AI δημιούργησε την εικόνα, το κείμενο είναι σωστό, η ιστορία είναι ρεαλιστική και οι χαρακτήρες είναι εύκολα αναγνωρίσιμοι (ακόμα και αν δεν είναι 100% ακριβείς).

Το Dall-E 3 δημιούργησε την εικόνα, αλλά ο Μπάιντεν δεν είναι εύκολα αναγνωρίσιμος και ο Τραμπ μπορεί να αναγνωριστεί μόνο λόγω του χαρακτηριστικού του χτενίσματος. Το κείμενο δεν είναι σωστό και το σκηνικό δεν είναι ρεαλιστικό αλλά περισσότερο σαν καρτούν.

Το MidJourney αρνήθηκε να δημιουργήσει την εικόνα.

συμπέρασμα

Δωρεάν και ευρέως διαθέσιμο, το Ideogram είναι ίσως το καλύτερο πρόγραμμα δημιουργίας εικόνας στην αγορά σήμερα. Είναι εξαιρετικός στην κατανόηση της φυσικής γλώσσας και έχει εξαιρετικές χωρικές ικανότητες και γρήγορη πρόσφυση. Είναι επίσης το καλύτερο πρόγραμμα δημιουργίας κειμένου που είναι διαθέσιμο αυτή τη στιγμή.

Εάν η αισθητική είναι το πιο σημαντικό στοιχείο – στο σημείο όπου η ιδιότητα μέλους και η αντιγραφή είναι λιγότερο σημαντικά – τότε το MidJourney θα μπορούσε να παραμείνει ισχυρός υποψήφιος για συγκεκριμένες περιπτώσεις χρήσης. Αν και δεν είναι ιδιαίτερα ισχυρό και βαριά λογοκριμένο, το Dall-E 3 μπορεί να έχει νόημα ως μέρος μιας συνδρομής ChatGPT Plus.

Το Ideogram AI κατέχει την κορωνίδα ανάμεσα στην εργαλειοθήκη μας για τη δημιουργία εικόνων – προς το παρόν.

Επιμέλεια Ryan Ozawa.

Category: A.I

Leave a Reply

Your email address will not be published. Required fields are marked *