#dpo (clickbait hashtag) ... rien à voir avec le Délégué à la Protection des Données.
DPO est un terme à retenir tant cela a des chances de modifier la performance des LLMs dans les mois et années à venir. Passé un peu inaperçu à NeurIPS (une conférence d'IA ... qui remonte à 1987 https://nips.cc),
DPO signifie Direct Preference Optimization. C'est une méthode concurrente à celle employée aujourd'hui pour améliorer les réponses des LLMs : l'apprentissage par renforcement à partir du feedback humain (RLHF) utilisé par OpenAI et d'ailleurs elle est au coeur de notre emblème 🇫🇷 Mistral AI (https://lnkd.in/dzEQDdVv) dans Mixtral 8x7B.
Pourquoi est-ce intéressant ? cela ouvre la voie à encore plus de facilité dans l'entrainement d'un modèle pour le domaine d'une entreprise (secteur, métier, données) : moins de besoins humains (l'entraînement de ChatGPT a été humainement désastreux https://lnkd.in/dgebK78z), théoriquement moins d'empreinte carbone cloud.
🤔 Se posent cependant des questions sur le traitement des biais et la traçabilité des préférences d'optimisation).
Avec un peu de maths et de créativité, il n'y a plus besoin de deux LLMs : l'un qui propose les réponses et un autre qui modélise quand il faut le récompenser suivant l'évaluation de l'utilisateur (👍👎). Un "simple" algorithme de classification (bon/mauvais) améliore le LLM en continu.