Forum

Notifications
Retirer tout

Les LLM, c’est pas magique : voici comment ils sont entraînés (et pourquoi c’est bluffant)

3 Posts
2 Utilisateurs
0 Reactions
11 Vu
(@harlilimerustyload-com)
Posts: 1
New Member
Début du sujet
 

Salut tout le monde,

En ce moment, je me forme à l'IA et au machine learning et, comme beaucoup, je suis fascinée par ce que les LLM (comme ChatGPT, Claude, Mistral, etc.) sont capables de faire.

Mais pour être honnête,, je dois avouer que je ne saisis pas totalement comment ils acquièrent ces connaissances. Est-ce qu'ils lisent simplement Wikipédia comme nous le faisons ? Qu'est-ce qu'un "modèle de langage" exactement et comment le rendre apte à rédiger des essais, du code ou même à faire des blagues ?

Si quelqu'un pourrait m'expliquer clairement, sans utiliser un jargon inutile, comment entraîner un LLM, je serais intéressée ! Et aussi pourquoi on le considère si "intelligent" alors qu'on dit que ce n'est qu'une prédiction de mots 🤯

Ce message a été modifié Il y a 1 mois par Harlilime
 
Posté : 02/05/2025 11:45 am
Franck Dennis
(@franck-dennis)
Posts: 8
Active Member
 

Excellente question ! C'est vrai que c'est important de souligner que les LLM ne sont pas magiques, mais en réalité, ils sont impressionnants tout en restant explicables.

En gros :

Un LLM est un modèle statistique extrêmement complexe, entraîné à prédire le mot suivant dans un texte.

Il a été exposé à des centaines de milliards de mots : des livres, des articles, des forums, du code, etc.

À chaque itération, il tente de deviner le mot suivant, compare avec la réponse réelle, puis ajuste ses paramètres internes (via la descente de gradient).

Au fil de milliards de répétitions, il apprend non seulement la grammaire, mais aussi les styles, les concepts, les chaînes logiques, etc.

👉 Ce qu'il ne possède pas : la compréhension "humaine", la capacité de raisonner de manière abstraite, ou plutôt une conscience.

Mais le simple fait qu'il puisse reproduire des schémas cohérents est déjà une prouesse assez impressionnante!

 
Posté : 02/05/2025 11:53 am
Franck Dennis
(@franck-dennis)
Posts: 8
Active Member
 

Pour compléter :

  • Les modèles comme GPT-4 ont des centaines de milliards de paramètres (ce sont des poids dans un réseau de neurones).

  • L'entraînement peut coûter plusieurs millions d’euros en GPU et en énergie.

  • On parle de datasets géants : Common Crawl, Wikipedia, livres, GitHub, forums comme Reddit… avec un gros travail de filtrage et de nettoyage.

Le truc dingue, c’est que tout ça repose sur un mécanisme simple mais puissant : le transformer (introduit par Vaswani et al., 2017 — article ici).

C’est cette architecture qui permet au modèle de prendre en compte le contexte entier d’un texte, et pas juste les derniers mots.

 
Posté : 02/05/2025 11:54 am
Share: