Обучение с подкреплением на основе обратной связи от человека (RLHF). История становления идеи

Джерело:
Хабрахабр:

Дата публікації:
19/07/2024 23:11

Постійна адреса новини:
http://www.vsinovyny.com/11148135

Обучение с подкреплением на основе обратной связи от человека (RLHF). История становления идеи

 

19/07/2024 23:11 // Хабрахабр:

Техника тренировки модели на основе обратной связи от людей (RLHF) была предложена как один из способов повысить согласованность модели. Люди, при том что являются основным источником предвзятостей в данных, одновременно являются своего рода высшим авторитетом в оценке текстов на соответствие каким либо ценностям.

В серии статей мы разберем каждую часть и внутренние детали пайплайна RLHF отдельно и поймем, как сообщество пришло к этой идее. Сделаем мы через через исторический обзор подвыборки статей по теме, каждая из которых опиралась на результаты предыдущих и приносила что то важное и новое в формирование общего пайплайна.

Это первая статья цикла о LLM, Предобучении и KL-контроле.

Читать далее

 

» Читати повністю

 

« Наступна новина з архіву
Переизобрел ECS. Паттерн Entity-State-Behaviour
  Попередня новина з архіву
Проектная, конструкторская или технологическая документация. Основные системы стандартов
»

 

 
© 2026 www.vsinovyny.com