Jan 31, 2024 8:16:16 AM | Insights

RLHF DPO direct preference optimization

dpo (clickbait hashtag) ... rien à voir avec le Délégué à la Protection des Données.

DPO est un terme à retenir tant cela a des chances de modifier la performance des LLMs dans les mois et années à venir. Passé un peu inaperçu à NeurIPS (une conférence d'IA ... qui remonte à 1987 https://nips.cc),
DPO signifie Direct Preference Optimization. C'est une méthode concurrente à celle employée aujourd'hui pour améliorer les réponses des LLMs : l'apprentissage par renforcement à partir du feedback humain (RLHF) utilisé par OpenAI et d'ailleurs elle est au coeur de notre emblème 🇫🇷 Mistral AI (https://lnkd.in/dzEQDdVv) dans Mixtral 8x7B.

Pourquoi est-ce intéressant ? cela ouvre la voie à encore plus de facilité dans l'entrainement d'un modèle pour le domaine d'une entreprise (secteur, métier, données) : moins de besoins humains (l'entraînement de ChatGPT a été humainement désastreux https://lnkd.in/dgebK78z), théoriquement moins d'empreinte carbone cloud.
🤔 Se posent cependant des questions sur le traitement des biais et la traçabilité des préférences d'optimisation).
Avec un peu de maths et de créativité, il n'y a plus besoin de deux LLMs : l'un qui propose les réponses et un autre qui modélise quand il faut le récompenser suivant l'évaluation de l'utilisateur (👍👎). Un "simple" algorithme de classification (bon/mauvais) améliore le LLM en continu.

1706612907786

 

Luc Veuillet

Luc Veuillet: Luc Veuillet

With over 25 years of experience in the digital space, I am a Technology Consulting Partner and Head of AI Practice at Insign, a leading agency that helps clients harness the power of IT and emerging technologies for business growth. I have developed a deep expertise in Artificial Intelligence, cybersecurity, and digital transformation, and I lead a talented team of consultants who provide strategic guidance and implementation support to clients across various sectors and industries. My goal is to craft digital ecosystems that unite individuals, machines, and data, and to leverage the full potential of AI for innovation and value creation. I also oversee cybersecurity initiatives and collaborate with business teams to strengthen the organization's resilience against cyber challenges. My dual role enables me to dialog with clients at both the technical and strategic levels, and deliver solutions that are aligned with their goals and needs. I am passionate about applying technological advancements to everything not yet challenged, and constantly seeking new ways to learn and grow.