Gemini 2.0: Η νέα ΑΙ της Google μπορεί να δημιουργήσει κείμενο, εικόνες και ομιλία

0
1

Το νέο, βελτιωμένο μοντέλο τεχνητής νοημοσύνης της Google, Gemini 2.0 Flash, ανακοινώθηκε και μπορεί να δημιουργήσει εγγενώς εικόνες και ήχο εκτός από κείμενο.

Το 2.0 Flash μπορεί επίσης να χρησιμοποιεί εφαρμογές και υπηρεσίες τρίτων, επιτρέποντάς του να πατάει στην Αναζήτηση Google, να εκτελεί κώδικα και πολλά άλλα.

Μια πειραματική έκδοση του Flash 2.0 θα είναι διαθέσιμη μέσω του Gemini API και των πλατφορμών προγραμματιστών AI της Google, AI Studio και Vertex AI. Ωστόσο, οι δυνατότητες δημιουργίας ήχου και εικόνας κυκλοφορούν μόνο για «συνεργάτες πρώιμης πρόσβασης» ενόψει μιας ευρείας κυκλοφορίας τον Ιανουάριο.

Τους επόμενους μήνες, η Google λέει ότι θα φέρει 2.0 Flash σε μια σειρά από προϊόντα όπως το Android Studio, το Chrome DevTools, το Firebase, το Gemini Code Assist και άλλα.

Το Flash πρώτης γενιάς, 1.5 Flash, μπορούσε να δημιουργήσει μόνο κείμενο και δεν σχεδιάστηκε για ιδιαίτερα απαιτητικούς φόρτους εργασίας. Αυτό το νέο μοντέλο είναι πιο ευέλικτο, λέει η Google, εν μέρει επειδή μπορεί να καλέσει εργαλεία όπως η Αναζήτηση και να αλληλεπιδράσει με εξωτερικά API.

«Γνωρίζουμε ότι το Flash είναι εξαιρετικά δημοφιλές στους προγραμματιστές για την… ισορροπία ταχύτητας και απόδοσης», δήλωσε ο Tulsee Doshi, επικεφαλής προϊόντος για το μοντέλο Gemini στην Google, κατά τη διάρκεια ενημέρωσης την Τρίτη. “Και με το 2.0 Flash, είναι εξίσου γρήγορο όσο ποτέ, αλλά τώρα είναι ακόμα πιο ισχυρό.”

Η Google ισχυρίζεται ότι το 2.0 Flash, το οποίο είναι δύο φορές πιο γρήγορο από το μοντέλο Gemini 1.5 Pro της εταιρείας σε ορισμένα benchmark, σύμφωνα με τις δοκιμές της ίδιας της Google, είναι «σημαντικά» βελτιωμένο σε τομείς όπως η κωδικοποίηση και η ανάλυση εικόνας.

Tο 2.0 Flash μπορεί να δημιουργήσει – και να τροποποιήσει – εικόνες μαζί με κείμενο. Το μοντέλο μπορεί επίσης να απορροφήσει φωτογραφίες και βίντεο, καθώς και ηχογραφήσεις, για να απαντήσει σε ερωτήσεις σχετικά με το περιεχόμενό τους.

Η παραγωγή ήχου είναι το άλλο βασικό χαρακτηριστικό του Flash 2.0 και ο Doshi το περιέγραψε ως «κατευθυνόμενο» και «προσαρμόσιμο». Για παράδειγμα, το μοντέλο μπορεί να αφηγηθεί κείμενο χρησιμοποιώντας μία από τις οκτώ φωνές «βελτιστοποιημένες» για διαφορετικές προφορές και γλώσσες.

«Μπορείτε να του ζητήσετε να μιλήσει πιο αργά, μπορείτε να του ζητήσετε να μιλήσει πιο γρήγορα ή ακόμα και να του ζητήσετε να πει κάτι σαν πειρατής», πρόσθεσε.

Η Google λέει ότι χρησιμοποιεί την τεχνολογία SynthID της για να υδατογραφήσει όλο τον ήχο και τις εικόνες που παράγονται από το 2.0 Flash. Σε λογισμικό και πλατφόρμες που υποστηρίζουν το SynthID τα αποτελέσματα του μοντέλου θα επισημαίνονται ως κατασκευασμένα.

Η έκδοση παραγωγής του 2.0 Flash θα κυκλοφορήσει τον Ιανουάριο. Ωστόσο, στο μεταξύ, η Google κυκλοφορεί ένα API, το Multimodal Live API, για να βοηθήσει τους προγραμματιστές να δημιουργήσουν εφαρμογές με λειτουργικότητα ροής ήχου και βίντεο σε πραγματικό χρόνο.

Χρησιμοποιώντας το Multimodal Live API, σύμφωνα με τη Google, οι προγραμματιστές μπορούν να δημιουργήσουν σε πραγματικό χρόνο πολυτροπικές εφαρμογές με εισόδους ήχου και βίντεο από κάμερες ή οθόνες. Το API υποστηρίζει την ενσωμάτωση εργαλείων για την ολοκλήρωση εργασιών και μπορεί να χειριστεί «φυσικά μοτίβα συνομιλίας», όπως διακοπές.

Πηγή