BABILong — бенчмарк для оценки LLM на больших контекстах

Джерело:
Хабрахабр / Захабренные / Тематические / Посты

Дата публікації:
16/12/2024 09:24

Постійна адреса новини:
http://www.vsinovyny.com/11533797

BABILong — бенчмарк для оценки LLM на больших контекстах

16/12/2024 09:24 // Хабрахабр / Захабренные / Тематические / Посты

Привет, Хабр! Мы — команда Memory‑Augmented models в составе лаборатории Cognitive AI Systems AIRI. В ходе своих исследований мы стараемся разобраться, насколько хорошо LLM могут обрабатывать большой объем данных и решать задачи на основе них.

Разработчики современных языковых моделей соревнуются в длине контекста и счёт уже идёт на миллионы токенов. Но насколько эффективно LLM пользуются информацией из этого контекста?

Чтобы выяснить это, мы вместе с коллегами из МФТИ и Лондонского института Математических Наук создали новый бенчмарк под названием BABILong, который мы привезли на NeurIPS в этом году. Он оценивает то, насколько успешно современные модели умеют искать информацию в собственных гигантских контекстах. Оказалось, что зачастую главное — это не размер, а умение пользоваться.

В этой статье расскажем подробнее о наших экспериментах, а также о том, как эффективно использовать длинный контекст.

» Читати повністю

«	Наступна новина з архіву Интеграция и сохранение выбранного языка пользователя в базу данных в фулстек-приложении на «Angular» и «NestJS»	Попередня новина з архіву Consider Negotiating with Infringers	»