Джерело:
Хабрахабр:
Дата публікації:
19/07/2024 23:11
Постійна адреса новини:
http://www.vsinovyny.com/11148135
19/07/2024 23:11 // Хабрахабр:

Техника тренировки модели на основе обратной связи от людей (RLHF) была предложена как один из способов повысить согласованность модели. Люди, при том что являются основным источником предвзятостей в данных, одновременно являются своего рода высшим авторитетом в оценке текстов на соответствие каким либо ценностям.
В серии статей мы разберем каждую часть и внутренние детали пайплайна RLHF отдельно и поймем, как сообщество пришло к этой идее. Сделаем мы через через исторический обзор подвыборки статей по теме, каждая из которых опиралась на результаты предыдущих и приносила что то важное и новое в формирование общего пайплайна.
Это первая статья цикла о LLM, Предобучении и KL-контроле.
Читать далее| « |
Наступна новина з архіву Переизобрел ECS. Паттерн Entity-State-Behaviour |
Попередня новина з архіву Проектная, конструкторская или технологическая документация. Основные системы стандартов |
» | |
|
|
||||