Un guide de l'API OpenAI et de ce que vous pouvez faire avec elle

Le pouvoir génératif de ChatGPT a provoqué une frénésie dans le monde de la technologie depuis son lancement. Pour partager l’intuition de l’IA, OpenAI a publié les API ChatGPT et Whisper le 1er mars 2023, afin que les développeurs puissent les explorer et les utiliser dans l’application.

Les API d’OpenAI comportent de nombreux points d’extrémité précieux qui facilitent l’intégration de l’IA. Explorons la puissance des API OpenAI pour voir comment elles peuvent vous être utiles.

Que peut faire l’API OpenAI ?

L’API OpenAI contient un grand nombre d’utilitaires pour les programmeurs. Si vous avez l’intention de fournir quotidiennement de l’IA in-app, OpenAI vous facilitera la vie avec les capacités suivantes.

Chat

Le point de terminaison de l’API OpenAI Chat aide l’utilisateur final à lancer une session interactive naturelle et conviviale avec un assistant virtuel en utilisant le modèle GPT-3.5-turbo.

En coulisses, l’appel API utilise un tableau de messages de rôles et de contenus. Du côté de l’utilisateur, le contenu est un ensemble d’instructions pour l’assistant virtuel, qui engage l’utilisateur, tandis que pour le modèle, le contenu est sa réponse.

Lire Steam ne parvient pas à se connecter à Internet sous Windows ? Voici comment y remédier

Le rôle de premier niveau est le système, où vous définissez la fonction globale de l’assistant virtuel. Par exemple, lorsque le programmeur dit au système quelque chose comme « vous êtes un assistant virtuel utile », vous attendez de lui qu’il réponde à diverses questions dans la limite de sa capacité d’apprentissage.

Après lui avoir demandé d’être « un assistant virtuel utile », voici comment s’est déroulée l’une de nos discussions en ligne de commande avec le modèle GPT-3.5-turbo :

Vous pouvez même améliorer les performances du modèle en fournissant des paramètres tels que la température, la pénalité de présence, la pénalité de fréquence, etc. Si vous avez déjà utilisé ChatGPT, vous savez déjà comment fonctionne le modèle de complétion de chat d’OpenAI.

Complétion de texte

L’API de complétion de texte fournit des fonctionnalités de conversation, d’insertion de texte et de complétion de texte basées sur des modèles GPT-3.5 avancés.

Le modèle champion du point de terminaison de texte est text-davinci-003, qui est considérablement plus intuitif que les modèles de langage naturel GPT-3. Le point d’accès accepte une invite de l’utilisateur, ce qui permet au modèle de répondre naturellement et de compléter des phrases simples ou complexes à l’aide d’un texte convivial.

Bien que le point d’accès à la complétion de texte ne soit pas aussi intuitif que le point d’accès au chat, il s’améliore au fur et à mesure que l’on augmente le nombre de jetons de texte fournis au modèle text-davinci-003.

Par exemple, nous avons obtenu des complétions à moitié fausses lorsque nous avons placé le modèle sur un max_tokens de sept :

Test du modèle de complétion de texte via CLI

Cependant, l’augmentation de max_tokens à 70 a généré des pensées plus cohérentes :

Test du modèle de complétion de texte via CLI plus complet

Speech-to-Text

Vous pouvez transcrire et traduire un discours audio à l’aide des terminaux de transcription et de traduction de l’OpenAI. Les terminaux de conversion de la parole au texte sont basés sur le modèle Whisper v2-large, développé par une supervision faible à grande échelle.

Cependant, OpenAI affirme qu’il n’y a pas de différence entre son modèle Whisper et le modèle open-source. Il offre donc des possibilités infinies d’intégration d’une IA de transcription et de traduction multilingue dans votre application à grande échelle.

L’utilisation du point final est simple. Tout ce que vous avez à faire est de fournir au modèle un fichier audio et d’appeler la fonction openai.Audio.translate ou openai.Audio.transcribe pour le traduire ou le transcrire respectivement. Ces points de terminaison acceptent une taille de fichier maximale de 25 Mo et supportent la plupart des types de fichiers audio, y compris mp3, mp4, MPEG, MPGA, m4a, wav et webm.

Comparaison de textes

Le point de terminaison de comparaison de texte de l’API OpenAI mesure la relation entre les textes en utilisant le modèle text-embedding-ada-002, un modèle d’intégration de deuxième génération. L’API d’intégration utilise ce modèle pour évaluer la relation entre les textes sur la base de la distance entre deux points vectoriels. Plus la différence est grande, moins les textes comparés sont liés.

Le point de terminaison de l’intégration propose le regroupement de textes, les différences, la pertinence, les recommandations, les sentiments et la classification. De plus, il facture par volume de jetons.

Bien que la documentation d’OpenAI indique que vous pouvez utiliser les autres modèles d’intégration de première génération, le premier est meilleur et moins cher. Cependant, OpenAI prévient que le modèle d’intégration peut présenter des préjugés sociaux à l’égard de certaines personnes, comme l’ont prouvé les tests.

Complétion de code

Le point d’accès à la complétion de code est construit sur le Codex OpenAI, un ensemble de modèles formés à l’aide du langage naturel et de milliards de lignes de code provenant de dépôts publics.

Le point de terminaison est en version bêta limitée et gratuite au moment de la rédaction, offrant un support pour de nombreux langages de programmation modernes, y compris JavaScript, Python, Go, PHP, Ruby, Shell, TypeScript, Swift, Perl et SQL.

Avec le modèle code-davinci-002 ou code-cushman-001, le point d’arrivée de la complétion de code peut insérer automatiquement des lignes de code ou créer des blocs de code à partir d’une invite de l’utilisateur. Bien que ce dernier modèle soit plus rapide, le premier est le moteur du point de terminaison, car il permet l’insertion de code pour l’autocomplétion de code.

Par exemple, vous pouvez générer un bloc de code en envoyant une invite au point final dans le commentaire de la langue cible.

Voici quelques réponses que nous avons obtenues lorsque nous avons essayé de générer des blocs de code en Python et en JavaScript via le terminal :

Invite de commande de la complétion de code OpenAI

Génération d’images

Il s’agit de l’une des fonctions les plus intuitives de l’API OpenAI. Basée sur le modèle d’image DALL.E, la fonctionnalité d’image de l’API OpenAI comporte des points d’extrémité pour la génération, l’édition et la création de variations d’images à partir d’invites en langage naturel.

Bien qu’elle ne dispose pas encore de fonctions avancées telles que la mise à l’échelle, puisqu’elle est encore en version bêta, ses résultats non mis à l’échelle sont plus impressionnants que ceux des modèles d’art génératif tels que Midjourney et Stable Diffusion.

Lorsque vous utilisez le point de terminaison de génération d’image, vous n’avez qu’à fournir une invite, la taille de l’image et le nombre d’images. En revanche, pour l’édition d’images, il est nécessaire d’inclure l’image à éditer et un masque RGBA marquant le point d’édition en plus des autres paramètres.

Le point final de variation, quant à lui, ne requiert que l’image cible, le nombre de variations et la taille de sortie. Au moment de la rédaction de ce document, les points de terminaison d’image bêta d’OpenAI ne peuvent accepter que des images carrées de 256×256, 512×512 et 1024×1024 pixels.

Nous avons créé une application simple de génération d’images en utilisant ce point de terminaison, et bien qu’il manque quelques détails, il a donné un résultat incroyable :

Comment utiliser l’API OpenAI

L’utilisation de l’API OpenAI est simple et suit le modèle conventionnel de consommation d’API.

Installer l’API openai paquetage en utilisant pip : pip install openai. Si vous utilisez plutôt Node, vous pouvez le faire en utilisant npm : npm install openai.
Récupérez vos clés d’API: Connectez-vous à votre tableau de bord OpenAI et cliquez sur l’icône de votre profil en haut à droite. Allez à Voir les clés API et cliquez sur Créer une nouvelle clé secrète pour générer votre clé secrète API.
Effectuez des appels d’API vers les points d’extrémité du modèle choisi via un langage côté serveur tel que Python ou JavaScript (Node). Alimentez-les avec vos API personnalisées et testez vos points d’extrémité.
Récupérez ensuite les API personnalisées via des frameworks JavaScript tels que React, Vue ou Angular.
Présentez les données (demandes des utilisateurs et réponses des modèles) dans une interface utilisateur visuellement attrayante, et votre application est prête à être utilisée dans le monde réel.

Que pouvez-vous créer avec l’API OpenAI ?

Les API OpenAI créent des points d’entrée pour l’utilisation réelle de l’apprentissage automatique et de l’apprentissage par renforcement. Bien que les possibilités de créativité soient nombreuses, voici quelques exemples de ce que vous pouvez créer avec les API OpenAI :

Intégrez un assistant virtuel intuitif (chatbot) dans votre site web ou votre application en utilisant le point de terminaison du chat.
Créer une application d’édition et de manipulation d’images capable d’insérer naturellement un objet dans une image à n’importe quel endroit spécifié en utilisant les points de terminaison de génération d’images.
Construire un modèle d’apprentissage automatique personnalisé à partir de la base en utilisant le point de terminaison d’ajustement du modèle d’OpenAI.
Fixer les sous-titres et les traductions pour les vidéos, l’audio et les conversations en direct à l’aide du point de terminaison du modèle parole-texte.
Identifiez les sentiments négatifs dans votre application en utilisant le modèle d’intégration OpenAI.
Créer des plugins de complétion de code spécifiques aux langages de programmation pour les éditeurs de code et les environnements de développement intégrés (IDE).

Construire sans fin avec les API OpenAI

Notre communication quotidienne implique souvent l’échange de contenu écrit. L’API OpenAI ne fait qu’étendre ses tendances créatives et son potentiel, avec des cas d’utilisation du langage naturel apparemment illimités.

L’API OpenAI n’en est qu’à ses débuts. Mais il faut s’attendre à ce qu’elle évolue avec plus de fonctionnalités au fil du temps.