Το νέο εργαλείο δημιουργίας εικόνων της OpenAI είναι πανίσχυρο και σίγουρα θα προκαλέσει

0
2

Η άφιξη του DALL-E 2 της OpenAI την άνοιξη του 2022 σηματοδότησε μια καμπή στην τεχνητή νοημοσύνη, όταν η μετατροπή κειμένου σε εικόνα έγινε ξαφνικά προσιτή σε μια επιλεγμένη ομάδα χρηστών, δημιουργώντας μια κοινότητα ψηφιακών εξερευνητών που γνώρισαν θαύματα και διαμάχες καθώς η τεχνολογία αυτοματοποιούσε την πράξη της οπτικής δημιουργίας.

Αλλά, όπως πολλά πρώιμα συστήματα τεχνητής νοημοσύνης, το DALL-E 2 δυσκολεύτηκε με τη συνεπή απόδοση κειμένου, συχνά παράγοντας μπερδεμένες λέξεις και φράσεις μέσα στις εικόνες. Είχε επίσης περιορισμούς στην παρακολούθηση σύνθετων οδηγιών με πολλά στοιχεία, μερικές φορές χάνοντας βασικές λεπτομέρειες ή παρερμηνεύοντας οδηγίες. Αυτές οι ελλείψεις άφηναν περιθώρια βελτίωσης που αντιμετώπισε η OpenAI σε επόμενες εκδόσεις, όπως το DALL-E 3 το 2023.

Την Τρίτη, η OpenAI ανακοίνωσε νέες δυνατότητες δημιουργίας πολυτροπικών εικόνων που ενσωματώνονται απευθείας στο μοντέλο γλώσσας GPT-4o AI, καθιστώντας το την προεπιλεγμένη δημιουργία εικόνων στη διεπαφή ChatGPT. Η ενοποίηση, που ονομάζεται “4o Image Generation”, επιτρέπει στο μοντέλο να ακολουθεί τις οδηγίες με μεγαλύτερη ακρίβεια (με καλύτερη απόδοση κειμένου από το DALL-E 3) και να ανταποκρίνεται στο πλαίσιο συνομιλίας για οδηγίες τροποποίησης εικόνας.

Η νέα δυνατότητα δημιουργίας εικόνων έγινε διαθέσιμη την Τρίτη στους χρήστες ChatGPT Free, Plus, Pro και Team, ενώ η πρόσβαση σε Enterprise και Education θα ακολουθήσει. Η δυνατότητα είναι επίσης διαθέσιμη στο εργαλείο δημιουργίας βίντεο Sora της OpenAI.

Όπως και το DALL-E 2, το 4o IG είναι βέβαιο ότι θα προκαλέσει συζητήσεις καθώς επιτρέπει εξελιγμένες δυνατότητες χειραγώγησης μέσων καθώς οι άνθρωποι θα έχουν πρόσβαση σε ένα εργαλείο AI που μπορούν να χρησιμοποιήσουν μέσω απλών μηνυμάτων κειμένου. Επίσης, πιθανότατα θα πυροδοτήσει έναν νέο γύρο διαμάχης σχετικά με τα καλλιτεχνικά στυλ και τα πνευματικά δικαιώματα.

Σε μια ανάρτηση ιστολογίου, το OpenAI τοποθετεί το 4o Image Generation ότι κινείται πέρα ​​από τη δημιουργία «σουρεαλιστικών, συναρπαστικών σκηνών» που παρατηρήθηκαν με προηγούμενες γεννήτριες εικόνων AI και προς τη δημιουργία «εικόνων εργασίας» όπως λογότυπα και διαγράμματα που χρησιμοποιούνται για επικοινωνία.

Η εταιρεία σημειώνει ιδιαίτερα βελτιωμένη απόδοση κειμένου εντός εικόνων, μια δυνατότητα όπου τα προηγούμενα μοντέλα κειμένου σε εικόνα συχνά αποτύγχαναν θεαματικά.

Στην ανάρτηση στο blog, η OpenAI παρείχε παραδείγματα προβλεπόμενων χρήσεων για τη δημιουργία εικόνων, όπως δημιουργία διαγραμμάτων, γραφημάτων, γραφικών μέσων κοινωνικής δικτύωσης χρησιμοποιώντας συγκεκριμένους χρωματικούς κώδικες, λογότυπα, αφίσες οδηγιών, επαγγελματικές κάρτες, προσαρμοσμένες στοκ φωτογραφίες με διαφανές φόντο, επεξεργασία φωτογραφιών χρήστη ή οπτικοποίηση εννοιών που συζητήθηκαν νωρίτερα σε μια συνομιλία.

Λίγο αφότου το OpenAI κυκλοφόρησε το 4o Image Generation, η κοινότητα AI στο X έβαλε τη δυνατότητα στους ρυθμούς της, διαπιστώνοντας ότι είναι αρκετά ικανή να εισάγει το πρόσωπο κάποιου σε μια υπάρχουσα εικόνα, να δημιουργεί ψεύτικα στιγμιότυπα οθόνης και να μετατρέπει φωτογραφίες meme σε στυλ Studio Ghibli , South Park , τσόχα , Muppets , Rick and Morty , Family Guy και πολλά άλλα.

OpenAI, Το νέο εργαλείο δημιουργίας εικόνων της OpenAI είναι πανίσχυρο και σίγουρα θα προκαλέσει

Φαίνεται ότι εισερχόμαστε σε μια εντελώς ρευστή «πραγματικότητα» μέσων χάρη σε ένα εργαλείο που μπορεί να μετατρέψει αβίαστα οπτικά μέσα μεταξύ στυλ. Τα στυλ επίσης δυνητικά παραβιάζουν την προστατευόμενη πνευματική ιδιοκτησία. Δεδομένων των όσων έχει πει προηγουμένως ο συνιδρυτής του Studio Ghibli, Hayao Miyazaki, σχετικά με τα έργα τέχνης που δημιουργούνται από την τεχνητή νοημοσύνη (“Αισθάνομαι έντονα ότι αυτό είναι προσβολή για την ίδια τη ζωή”), φαίνεται ότι δεν θα εκτιμούσε αυτήν τη στιγμή την τρέχουσα μόδα των Ghibli που δημιουργείται από AI στο X.

Πηγή