Insights

dpo (clickbait hashtag) ... rien à voir avec le Délégué à la Protection des Données.

DPO est un terme à retenir tant cela a des chances de modifier la performance des LLMs dans les mois et années à venir. Passé un peu inaperçu à NeurIPS (une conférence d'IA ... qui remonte à 1987 https://nips.cc),
DPO signifie Direct Preference Optimization. C'est une méthode concurrente à celle employée aujourd'hui pour améliorer les réponses des LLMs : l'apprentissage par renforcement à partir du feedback humain (RLHF) utilisé par OpenAI et d'ailleurs elle est au coeur de notre emblème 🇫🇷 Mistral AI (https://lnkd.in/dzEQDdVv) dans Mixtral 8x7B.

Pourquoi est-ce intéressant ? cela ouvre la voie à encore plus de facilité dans l'entrainement d'un modèle pour le domaine d'une entreprise (secteur, métier, données) : moins de besoins humains (l'entraînement de ChatGPT a été humainement désastreux https://lnkd.in/dgebK78z), théoriquement moins d'empreinte carbone cloud.
🤔 Se posent cependant des questions sur le traitement des biais et la traçabilité des préférences d'optimisation).
Avec un peu de maths et de créativité, il n'y a plus besoin de deux LLMs : l'un qui propose les réponses et un autre qui modélise quand il faut le récompenser suivant l'évaluation de l'utilisateur (👍👎). Un "simple" algorithme de classification (bon/mauvais) améliore le LLM en continu.

1706612907786

Jan 31, 2024 8:16:16 AM | Insights

Luc Veuillet: Luc Veuillet

Jan 31, 2024 8:16:16 AM | Insights

Share

Luc Veuillet: Luc Veuillet

You May Also Like

Jan 31, 2024 10:04:31 AM | Gemini is the first AI to score 90.0%

Jan 31, 2024 9:39:00 AM | GPT Store et ShadowAI

Jan 31, 2024 8:19:32 AM | CALM, LLaMA Pro : vers la prochaine étape de l'IA