История изменений
Исправление baaba, (текущая версия) :
Шляпа какая-то, двое из ларца, одинаковых с лица. Gary
Промпт содержит задачи, это текстовый файл. Файл с промптом скармливается модели, один или несколько раз. Это, как правило разные модели и в разной квантовке, возможно из разных репозитариев (Бартовский использует матрицу внимания). Далее, результат записывается в выходной файл, там, как правило, решение задачи а в конце - статистика.
Другая модель сравнивает как прошло тестирование. Одинаково отвечала модель или варьировала ответы. Рабочий ли код. Эта часть делается вручную. То есть я скармливаю большой модели ответы малых. Она проверяет карточки с заданиями. Это адский труд. По результатам я понимаю, какую модель можно поставить в виде эндпоинта, для IDE.
Собственно вот. Раньше я вручную прогонял. Сейчас пишу список моделей и количество итераций. Результаты посылаю пачкой в aistudio.
PS то есть скрипт автоматически скармливает тесты. Вручную это долго и нудно.
По результатам примерно понятно какая модель лучше и в каком качестве и чего примерно от неё ждать. Но практика покажет.
Исходная версия baaba, :
Шляпа какая-то, двое из ларца, одинаковых с лица. Gary
Промпт содержит задачи, это текстовый файл. Файл с промптом скармливается модели, один или несколько раз. Это, как правило разные модели и в разной квантовке, возможно из разных репозитариев (Бартовский использует матрицу внимания). Далее, результат записывается в выходной файл, там, как правило, решение задачи а в конце - статистика.
Другая модель сравнивает как прошло тестирование. Одинаково отвечала модель или варьировала ответы. Рабочий ли код. Эта часть делается вручную. То есть я скармливаю большой модели ответы малых. Она проверяет карточки с заданиями. Это адский труд. По результатам я понимаю, какую модель можно поставить в виде эндпоинта, для IDE.
Собственно вот. Раньше я вручную прогонял. Сейчас пишу список моделей и количество итераций. Результаты посылаю пачкой в aistudio.
По результатам примерно понятно какая модель лучше и в каком качестве и чего примерно от неё ждать. Но практика покажет.