Обучение с подкреплением на основе обратной связи от человека (RLHF). История становления идеи

Дата публікації:
19/07/2024 23:11

Постійна адреса новини:
http://www.vsinovyny.com/11148135

Обучение с подкреплением на основе обратной связи от человека (RLHF). История становления идеи

19/07/2024 23:11 // Хабрахабр:

Техника тренировки модели на основе обратной связи от людей (RLHF) была предложена как один из способов повысить согласованность модели. Люди, при том что являются основным источником предвзятостей в данных, одновременно являются своего рода высшим авторитетом в оценке текстов на соответствие каким либо ценностям.

В серии статей мы разберем каждую часть и внутренние детали пайплайна RLHF отдельно и поймем, как сообщество пришло к этой идее. Сделаем мы через через исторический обзор подвыборки статей по теме, каждая из которых опиралась на результаты предыдущих и приносила что то важное и новое в формирование общего пайплайна.

Это первая статья цикла о LLM, Предобучении и KL-контроле.

» Читати повністю

«	Наступна новина з архіву Переизобрел ECS. Паттерн Entity-State-Behaviour	Попередня новина з архіву Проектная, конструкторская или технологическая документация. Основные системы стандартов	»