ChatGPT-4o: Το νέο μοντέλο της OpenAI είναι μια τεράστια αναβάθμιση – Χρησιμοποιεί κείμενο, όραση και ήχο

0
4

Tη Δευτέρα η OpenAI παρουσίασε το GPT-4o (o για το “omni”), ένα σημαντικό νέο μοντέλο τεχνητής νοημοσύνης που μπορεί φαινομενικά να συνομιλεί χρησιμοποιώντας ομιλία σε πραγματικό χρόνο, διαβάζοντας συναισθηματικές ενδείξεις και ανταποκρινόμενο σε οπτικές εισροές.

Λειτουργεί ταχύτερα από το προηγούμενο καλύτερο μοντέλο της OpenAI, το GPT-4 Turbo, θα είναι δωρεάν για τους χρήστες του ChatGPT και θα είναι διαθέσιμο ως υπηρεσία μέσω του API, που θα κυκλοφορήσει τις επόμενες εβδομάδες, σύμφωνα με την εταιρεία.

Η OpenAI αποκάλυψε τις νέες δυνατότητες σε ένα live streaming στο YouTube με τίτλο “OpenAI Spring Update”, που παρουσιάστηκε από τον CTO του OpenAI Mira Murati και τους υπαλλήλους Mark Chen και Barret Zoph που έδειξαν το GPT-4o σε δράση.

Η OpenAI ισχυρίζεται ότι το GPT-4o ανταποκρίνεται στις εισόδους ήχου σε περίπου 320 χιλιοστά του δευτερολέπτου κατά μέσο όρο, κάτι που είναι παρόμοιο με τους χρόνους απόκρισης του ανθρώπου στη συνομιλία, σύμφωνα με μια μελέτη του 2009, και πολύ μικρότερο από την τυπική καθυστέρηση 2-3 δευτερολέπτων που παρατηρήθηκε με προηγούμενα μοντέλα.

Με το GPT-4o, η OpenAI λέει ότι εκπαίδευσε ένα ολοκαίνουργιο μοντέλο τεχνητής νοημοσύνης από άκρο σε άκρο χρησιμοποιώντας κείμενο, όραση και ήχο με τρόπο που όλες οι είσοδοι και οι έξοδοι “επεξεργάζονται από το ίδιο νευρωνικό δίκτυο”.

«Επειδή το GPT-4o είναι το πρώτο μας μοντέλο που συνδυάζει όλους αυτούς τους τρόπους, εξακολουθούμε να εργαζόμαστε για να εξερευνήσουμε τι μπορεί να κάνει το μοντέλο και τους περιορισμούς του», λέει η OpenAI.

Στην παρουσίαση, έδειξαν τις δυνατότητες συνομιλίας ήχου του GPT-4o σε πραγματικό χρόνο, επιδεικνύοντας την ικανότητά του να εμπλέκεται σε φυσικό, ανταποκρινόμενο διάλογο. Ο βοηθός τεχνητής νοημοσύνης φαινόταν να αντιλαμβάνεται εύκολα τα συναισθήματα, προσάρμοσε τον τόνο και το στυλ του για να ταιριάζει με τα αιτήματα του χρήστη και ακόμη και ενσωμάτωσε ηχητικά εφέ, γέλιο και τραγούδι στις απαντήσεις του.

Οι παρουσιαστές τόνισαν επίσης την βελτιωμένη οπτική κατανόηση του GPT-4o. Ανεβάζοντας στιγμιότυπα οθόνης, έγγραφα που περιέχουν κείμενο και εικόνες ή γραφήματα, οι χρήστες μπορούν  να διεξάγουν συνομιλίες σχετικά με το οπτικό περιεχόμενο και να λαμβάνουν ανάλυση δεδομένων από το GPT-4o. Στη ζωντανή επίδειξη, ο βοηθός τεχνητής νοημοσύνης έδειξε την ικανότητά του να αναλύει τις selfies, να εντοπίζει συναισθήματα και να συμμετέχει σε ανάλαφρα αστεία σχετικά με τις εικόνες.

Επιπλέον, το GPT-4o παρουσίασε βελτιωμένη ταχύτητα και ποιότητα σε περισσότερες από 50 γλώσσες, κάτι που σύμφωνα με την OpenAI καλύπτει το 97 τοις εκατό του παγκόσμιου πληθυσμού. Το μοντέλο παρουσίασε επίσης τις δυνατότητες μετάφρασης σε πραγματικό χρόνο, διευκολύνοντας τις συνομιλίες μεταξύ ομιλητών διαφορετικών γλωσσών με σχεδόν στιγμιαίες μεταφράσεις.

Η OpenAI ανακοίνωσε ότι το GPT-4o θα είναι προσβάσιμο σε όλους τους χρήστες του ChatGPT, με τους συνδρομητές επί πληρωμή να έχουν πέντε φορές μεγαλύτερα όρια χρήσης από τους δωρεάν χρήστες. Το GPT-4o σε μορφή API φέρεται επίσης να διαθέτει διπλάσια ταχύτητα, 50 τοις εκατό χαμηλότερο κόστος και πέντε φορές υψηλότερα όρια ρυθμού σε σύγκριση με το GPT-4 Turbo.

Πηγή