OpenAI a présenté un nouveau modèle d'intelligence artificielle générative qu'il a appelé GPT-4oétant le « o » de « omni » en référence à leurs capacités à gérer et à gérer texte, voix et vidéo en temps réel. Il s'agit d'un modèle doté de fonctionnalités améliorées, d'une plus grande vitesse et de plus grandes performances et que l'entreprise considère comme un pas vers un interaction homme machine beaucoup plus naturel.
Comme l'explique le cabinet dirigé par Sam Altman, GPT-4o accepte en entrée toute information combinaison de texte, audio et image et génère n'importe quelle combinaison de sorties dans ces mêmes formats. Comme détaillé, le modèle peut répondre aux entrées audio en seulement 232 millisecondes, ce qui est similaire au temps de réponse humain dans une conversation ; et est particulièrement meilleur en termes de compréhension visuelle et audio par rapport aux modèles existants.
GPT-4o promet d'améliorer considérablement l'expérience dans ChatGPT, le chatbot d'OpenAI, qui offrait jusqu'à présent la possibilité d'interagir et de recevoir des réponses vocales et textuelles. Mais avec le nouveau modèle, la vidéo est également ajoutée, ce qui élèvera l'application ChatGPT en tant qu'assistant virtuel. Et c'est ce que l'entreprise a reflété dans une série de vidéos dans lesquelles des managers interagissent avec le modèle sur des téléphones portables et dans différentes situations.
Dans les vidéos, vous pouvez voir comment le modèle est capable de identifier l'environnement, chanter, chuchoter, traduire en temps réel, résoudre des problèmes de mathématiques, être sarcastique et exprimer d'autres émotions par l'intonation ou le chant, entre autres choses. GPT-4o est multilingue, avec la possibilité de traiter 50 langues différentes.
En plus d'améliorer les capacités du modèle, l'entreprise affirme s'être concentrée sur le expérience d'interaction pour le rendre plus simple et plus naturel, et permettre aux utilisateurs de se concentrer sur la collaboration avec l'outil et pas seulement sur l'interface. C'est pourquoi ils considèrent le nouveau modèle comme une étape importante en termes de facilité d'utilisation.
C'est plus, Sam Altman Le PDG de l'entreprise, a publié un tweet énigmatique qui dit seulement « elle ». De nombreux utilisateurs ont interprété cela comme une allusion au film réalisé par Spike Jonze et mettant en vedette Joaquin Phoenix dans lequel son personnage interagit et tombe amoureux d'un assistant numérique, que la société aborde désormais avec GPT-4o.
Cependant, l'entreprise indique qu'elle est optimisation des capacités du modèle. « Avec GPT-4o, nous formons un nouveau modèle unique de bout en bout pour le texte, la vision et l'audio, ce qui signifie que toutes les entrées et sorties sont traitées par le même réseau neuronal.», expliquent-ils d’OpenAI. « Étant donné que GPT-4o est notre premier modèle à combiner toutes ces modalités, nous ne faisons encore qu'effleurer la surface pour explorer ce que le modèle peut faire et ses limites.».
L'entreprise explique également qu'il s'agit un modèle sûrqui a été soumis, entre autres, à un apprentissage des techniques de filtrage des données et à un perfectionnement du comportement du modèle grâce à un entraînement ultérieur, ainsi qu'à la mise en place de barrières de sécurité dans les sorties vocales.
Il a également effectué des évaluations humaines et automatisées tout au long du processus de formation du modèle ; et a été soumis à des experts externes en psychologie sociale, en préjugés, en équité et en désinformation. identifier les risques.
Cependant, la société met actuellement en œuvre des fonctionnalités de texte et d'image GPT-4o dans ChatGPT pour les utilisateurs disposant de modalité gratuite o Plus avec une limite de messages étendue. Au cours des prochaines semaines, il travaillera sur l'infrastructure technique, la convivialité et la sécurité nécessaires au lancement des autres modalités, en les mettant d'abord à la disposition d'utilisateurs sélectionnés.
La même chose se produira pour développeurs Ils peuvent déjà accéder aux capacités de texte et d'image de GPT-4o dans l'API, mais devront attendre quelques semaines pour pouvoir accéder à l'audio et à la vidéo.
Comment planifier au mieux un voyage en Australie avec votre chien