Vous êtes déroutés face à l’afflux d’articles ou de conversations sur l’intelligence artificielle, et les outils comme OpenAI, ChatGPT, Dall-e ou Stable Diffusion ? Voici un lexique et toutes les bases pour comprendre de quoi tout le monde parle en ce moment. Un article qui aurait pu s’appeler : l’intelligence artificielle pour les nuls !
Bien que ChatGPT et les outils de conversion de texte en image figurent parmi les développements technologiques les plus en vogue à l’heure actuelle, comprendre ce qu’ils sont et comment ils fonctionnent peut être un exercice frustrant. Le domaine de l’IA est rempli de jargon technique parfois incompréhensible, et les explications simples des concepts les plus fondamentaux sont rares. Par conséquent, des outils comme ChatGPT ou Dall-e peuvent ressembler à des outils mystiques, qu’on ne sait pas différencier : génération de texte, d’image, prompts ou crédits…
Pour vous aider à comprendre tout cela, voici un lexique simple des termes, produits et entreprises notables de l’IA, ainsi que des liens vers des endroits où vous pouvez en savoir plus.
Termes de bases de l’IA
IA
Abréviation d’intelligence artificielle (AI pour artificial intelligence en anglais), cela fait largement référence à l’idée d’ordinateurs capables d’apprendre et de prendre des décisions de manière humaine. L’intelligence artificielle est l’ensemble des techniques et des technologies qui permettent à une machine ou à un système informatique de simuler l’intelligence humaine. Elle est utilisée pour résoudre des problèmes, effectuer des tâches, apprendre de manière autonome et s’adapter à de nouvelles situations. L’IA peut être divisée en différentes catégories, telles que l’apprentissage automatique (machine learning), la reconnaissance de la parole et de l’image, la robotique et le raisonnement sémantique.
Apprentissage automatique
Sous-domaine de l’intelligence artificielle (machine learning en anglais), il s’agit de la pratique consistant à apprendre aux ordinateurs à reconnaître des modèles à l’aide de données et d’algorithmes. Elle diffère de la programmation traditionnelle en ce que l’ordinateur n’a pas besoin d’être explicitement codé pour répondre à tous les scénarios potentiels. Le machine learning permet à une machine de s’améliorer de manière autonome et de résoudre des problèmes complexes, tels que la reconnaissance de la parole et de l’image, la prédiction de l’évolution des marchés financiers ou la prédiction des tendances de consommation.
Réseau neuronal
Type de modèle d’apprentissage automatique qui imite les neurones du cerveau humain, en utilisant un réseau de nœuds pour traiter les données via des algorithmes. Cela permet à l’ordinateur d’établir des liens entre de nombreux points de données différents et d’apprendre lesquels sont les plus importants lorsqu’il répond à une requête. Un réseau neuronal est donc un modèle informatique qui s’inspire du fonctionnement du cerveau humain. Il est composé de plusieurs couches de « neurones » qui sont connectés entre eux et qui peuvent transmettre des informations sous forme de signaux électriques. Chaque neurone est relié à plusieurs autres neurones et peut recevoir des entrées sous forme de valeurs numériques.
En fonction de ces entrées, chaque neurone calcule une sortie qui est envoyée aux neurones suivants. Les réseaux neuronaux sont utilisés dans de nombreuses applications de l’intelligence artificielle, telles que la reconnaissance de la parole et de l’image, la traduction automatique et la prédiction de l’évolution des marchés financiers. Ils peuvent être entraînés à partir de données et à s’adapter de manière autonome en fonction de ces données.
Deep Learning
Décrit un réseau de neurones dont les données passent par plusieurs couches de traitement, dont certaines sont cachées au programmeur, avant d’arriver à une réponse. Les outils d’IA tels que ChatGPT et Stable Diffusion sont des exemples d’applications qui utilisent des techniques d’apprentissage en profondeur. Le deep learning (apprentissage en profondeur) utilise des réseaux de neurones profonds (c’est-à-dire composés de plusieurs couches de neurones) pour apprendre à partir de données. Le deep learning est utilisé pour résoudre des problèmes complexes qui nécessitent une grande quantité de données et une grande capacité de traitement. Les réseaux de neurones profonds sont capables de traiter des données de manière hiérarchique, en extrayant des caractéristiques de niveau supérieur à partir de caractéristiques de niveau inférieur. Cette approche permet de capturer des structures complexes et de meilleures performances dans les tâches de classification et de prédiction.
GPT et IA de conversation
GPT
Abréviation de « Generative Pre-Trained Transformer », il s’agit d’un modèle d’IA qui utilise l’apprentissage en profondeur pour générer du texte de type humain, créé par OpenAI. Le nom GPT lui-même nécessite du détail :
- Génératif : fait référence à sa capacité à générer du texte.
- Pré-formation : signifie utiliser le modèle d’une tâche d’apprentissage automatique pour en former une autre, de la même manière que les humains s’appuient sur les connaissances existantes pour apprendre de nouvelles choses. Dans ce cas, GPT implique une pré-formation sur un large corpus de texte.
- Transformateur : c’est une sorte de réseau de neurones qui apprend de manière holistique la relation entre toutes les parties d’une séquence de données (dans ce cas, les mots d’une phrase).
La GPT est considérée comme une percée pour l’IA, car elle comprend mieux le contexte et les nuances que les approches précédentes.
Modélisation du langage
Technique permettant de déterminer l’ordre des mots dans une phrase, en fonction de la probabilité que ces mots aient un sens.
ChatGPT
Un robot conversationnel (chatbot) créé par OpenAI, utilisant un modèle de langage qui met l’accent sur le dialogue aller-retour. Cet outil est gratuit et vous pouvez essayer chatGPT ici.
GPT-3
Le modèle de langage de troisième génération créé par OpenAI. Il constitue la base d’une multitude d’outils d’écriture d’IA qui ont été lancés au cours des deux dernières années, en utilisant l’API d’OpenAI. (ChatGPT utilise une version améliorée, appelée GPT-3.5, tandis que GPT-4 est en cours de développement.)
OpenAI
La société de recherche en IA derrière GPT-3, ChatGPT et DALL-E. Il a commencé comme un groupe à but non lucratif, mais exploite maintenant une entreprise à profit plafonné qui emploie la plupart de son personnel. Elon Musk était cofondateur, mais a démissionné du conseil d’administration d’OpenAI en 2018. OpenAI est une organisation de recherche en intelligence artificielle qui a pour mission de développer et de promouvoir des technologies d’IA sûres et éthiques. OpenAI a été créée en 2015 par un groupe de personnalités du monde de la technologie, notamment Elon Musk et Sam Altman, dans le but de contribuer à l’avancement de l’IA de manière responsable. OpenAI mène des recherches sur de nombreuses applications de l’IA, telles que l’apprentissage automatique, la reconnaissance de la parole et de l’image, la robotique et le raisonnement sémantique. L’organisation publie régulièrement des articles de recherche et met à disposition des outils et des ressources pour faciliter l’utilisation de l’IA par les scientifiques et les développeurs.
L’art créé par IA : Dall-E, Stable Diffusion, Midjourney…
Modèle de diffusion : C’est une méthode de création d’images à partir d’invites de texte autrement appelés « prompts ». La création d’images par modèle de diffusion fonctionne en ajoutant du bruit aléatoire à un ensemble d’images de référence, puis en remplaçant le bruit pour construire l’image souhaitée.
Plusieurs entreprises utilisent désormais le modèle de diffusion pour proposer des outils de conversion texte-image, notamment :
Dall-e
l’outil de conversion de texte en image d’OpenAI, qui utilise GPT-3 pour interpréter les demandes des utilisateurs. La version la plus récente, DALL-E2, lancée en juillet et offre des images plus nettes et plus précises que l’original. Il est disponible dans une version bêta publique, avec des utilisateurs capables de créer jusqu’à 50 images gratuitement.
Stable Diffusion
une application open source de conversion de texte en image créée par Stability AI. La version officielle a un processus d’installation laborieux et s’exécute via une ligne de commande, mais des développeurs tiers ont utilisé le code open source pour créer des versions plus accessibles pour les ordinateurs de bureau et le Web.
Imagen
Un autre outil de conversion de texte en image qui utilise un modèle de diffusion, celui-ci créé par Google. La société a choisi de ne pas publier son code ni de le démontrer publiquement pour le moment, citant son potentiel à créer du contenu inapproprié.
Midjourney
un laboratoire indépendant créant son propre système de conversion de texte en image, actuellement disponible dans une version bêta sur invitation uniquement.
Dreambooth
un modèle d’apprentissage en profondeur, développé par Google, qui peut affiner les images créées par diffusion. Son cas d’utilisation le plus notable est la possibilité de générer de nouvelles images de personnes spécifiques à partir de photos existantes, pour le meilleur ou pour le pire. Bien que Google lui-même n’ait pas publié Dreambooth pour un usage public, une implémentation de celui-ci a été publiée en tant que projet open source.
Lensa
Une application d’édition d’images pour iOS et Android de Prisma Labs qui a été lancée pour la première fois en 2018. Elle est devenue virale ces dernières semaines grâce à une nouvelle fonctionnalité « Magic Avatar », dont les effets sont similaires à ceux de Stable Diffusion et Dreambooth. Il a été critiqué pour avoir créé des images trop sexualisées, en particulier pour les femmes, ainsi que des nus accidentels.
Que peut faire une IA en termes artistiques ?
Une IA (Intelligence Artificielle) peut être utilisée de différentes manières dans le domaine artistique. Voici quelques exemples de ce que peut faire une IA dans ce domaine :
Générer du contenu artistique : une IA peut être utilisée pour générer de la musique, des images, des films, etc. en utilisant des algorithmes de machine learning. Par exemple, il existe des programmes qui utilisent l’apprentissage par renforcement pour créer des compositions musicales originales, ou des programmes qui utilisent des réseaux de neurones pour générer des images à partir de descriptions textuelles.
Analyser et classer du contenu artistique : une IA peut être utilisée pour analyser et classer du contenu artistique, par exemple pour trier des photos en fonction de leur sujet ou de leur style, ou pour analyser le contenu d’une œuvre d’art pour en déterminer le genre ou l’époque.
Aider à la création artistique : une IA peut être utilisée pour aider les artistes dans leur travail en leur proposant des idées ou en leur fournissant des outils de création. Par exemple, il existe des programmes qui permettent de dessiner ou de peindre en utilisant l’IA comme guide.
Interagir avec le public : une IA peut être utilisée pour créer des expériences interactives avec le public, par exemple en répondant à des questions ou en proposant des œuvres adaptées aux goûts et aux préférences des visiteurs.
L’IA ne remplace pas les artistes humains, mais peut être utilisée comme un outil pour les aider dans leur travail ou pour créer de nouvelles expériences artistiques.
En conclusion, l’intelligence artificielle est un domaine complexe et très vaste, et les outils d’IA tels que ChatGPT, Dall-e, Stable Diffusion et GPT-3 sont des développements technologiques très intéressants. Grâce à ce lexique et à cet article, vous avez maintenant une base solide pour comprendre ces outils et ce que peut faire l’IA en termes de conversion texte-image.