LINUX.ORG.RU

Протестировал easy-diffusion

 , ,


3

0

Easy-diffusion — это локальная программа, которая генерирует изображения посредством нейросетей. Для запуска необходимо скачать репозитарий с гитхаба — https://github.com/easydiffusion/easydiffusion — и запустить ./start.sh в директории репозитария. Далее установщик позаботится обо всем остальном и скачает все зависимости. В требованиях для запуска необходима карта Nvidia или AMD. Поддерживаются CUDA и ROCM соотвественно. Также поддерживается рендер изображений и на процессоре.

Для генерации изображения необходимо указать следующие параметры:

  1. промпт — набор слов, указывающий что конкретно необходимо сгенерировать, обязательно;
  2. отрицательный промпт — набор слов, указывающий что *не надо* генерировать; опционально, но с ним получается контролировать более точно;
  3. seed — значение, отвечающее за уникальность изображений; можно ввести вручную или выбрать автоматическую генерацию;
  4. число изображений, по умолчанию 1;
  5. модель, отвечает за стиль изображения: реалистичный. мультяшный и так далее; обязательна; обычно у модели есть одно или несколько ключевых слов для указания в промпте;
  6. лора, содержит в себе набор для генерации одного или нескольких изображений. Необязательна, но с ней можно быстрее получить нужный результат;
  7. Sampler — способ обработки;
  8. Guidance Scale — параметр, который контролирует, насколько процесс генерации изображения следует текстовой подсказке;
  9. количество шагов, собственно, указывает, сколько шагов будет уходить на генерацию изображения; больше число шагов — изображение получается более качественным, меньше — менее качественным;
  10. VAE — в основном, используется для увеличения насыщенности и яркости изображения, но иногда меняет стиль изображения;
  11. размер изображения. Обычно модель заточена под определенный размер и если размер изображения будет слишком сильно отличаться, то то и результат будет отличаться. Если размер изображения будет сильно меньше, то результатом будет нечитабельная мазня. Если не слишком сильно, то может сгенерировать только часть изображения. В случае увеличением размера изображения слишком сильно, могут появиться различные различные артефакты при генерация, например дополнительные руки и ноги. Кроме того, вырастет потребление видеопамяти;
  12. Clip Skip. Не совсем понимаю, что значит этот параметр; обычно в описании лоры указывается, надо его использовать или нет.

О лоре. Например, есть модель которая позволяет указать в каком стиле должно быть изображение, а лора позволяет добавить готовый шаблон для получения результата. Обращаю внимание, что лора должна быть совместима с моделью. В случае несовместимости изображение просто не сгенерируется.

Также у лоры есть свое значение. Обычно лора слишком сильная, поэтому её значение делается небольшим, чтобы её ослабить и получить более красивый результат.

Но даже совместимость лоры не гаранирует красивый результат, потому что автор мог просто не проверять как будет выглядеть результат конкретной лоры с конкретной моделью и результат может быть некрасивым. При генерации может быть указана одна, несколько или ноль лор.

У лоры могут быть ключевые слова или слово. Может не быть. Всё зависит от конкретной лоры.

У меня алгоритм для генерации изображения обычно такой:

  1. беру модель;
  2. беру лору;
  3. беру промпт;
  4. беру отрицательный промпт;
  5. беру seed. Обычно из примера лоры, если в примере нет, то беру из какого-то другого рандомного примера;
  6. прогоняю это все для генерации через несколько моделей по одному изображению;
  7. выбираю изображение с той модели, которая мне больше всего понравилась;
  8. генерирую 100 изображений с этой моделью, лорой, промптом, сидом и отрицательным промптом;
  9. из этих 100 изображений выбираю одно подходящее.

Конкретно здесь у меня изображение со следующими настройками:

Seed: 2851093873
Dimensions: 512x768
Sampler: euler_a
Inference Steps: 30
Guidance Scale: 7
Model: bs_1500
Clip Skip: yes
Prompt: sketch, black souls, bs, masterpiece, high quality, blpioneer, 1boy, cowboy shot, covered eyes, shadow on eyes, brown hair, long blue winter coat, white scarf, outdoors, park, evening, walking, winter, hands in pockets, side view,
Lora Model: blpioneer, add_detail
Lora Strength: 0.8,0.5

>>> Просмотр (1920x1080, 841 Kb)

★★★★★

Проверено: hobbit ()
Последнее исправление: hobbit (всего исправлений: 15)

Из сопроводительного текста не совсем ясна методология тестирования и её результаты.

skiminok1986 ★★★★★
()
Ответ на: комментарий от skiminok1986

Была использована методология тестирования черного ящика. По результатам работает так же же как и описывается в документации разработчиков. Отклонений от задокументированного поведения замечено за срок тестирования не было.

vbcnthfkmnth123 ★★★★★
() автор топика
Последнее исправление: vbcnthfkmnth123 (всего исправлений: 3)
Ответ на: комментарий от hobbit

В общем случае можно представить лору как маленькую модель. Модель - это много изображений в определенном стиле. А лора обычно это одно изображение, которое позволяет не описывать большим количеством слов модели что нужно. Плюс ещё в модели может просто не заложено необходимого изображения. Вместо траты времени и ресурсов на переобучение модели, можно просто добавить лору и получить результат.

vbcnthfkmnth123 ★★★★★
() автор топика
Последнее исправление: vbcnthfkmnth123 (всего исправлений: 1)

смотрю в начало негативного промпта и становится не столь обидно за половину населения планеты, сколько интересно, какие результаты были без него :-)

mazdai ★★★
()
Ответ на: комментарий от mazdai

набор классический, без него больше попыток нужно было бы сделать.

HE_KOT
()

Круто. А можешь Stable Cascade запустить? А то у них на гитхабе написано смотри доку на hugging face, а на hf написано смотри гитхаб. Моих интеллектуальных способностей не хватило раскрыть эту рекурсию.

Khnazile ★★★★★
()
Ответ на: комментарий от vbcnthfkmnth123

Я все выложенные исходники оперы хочу собрать. Может когда нибудь осилю.

Ты про утёкшие исходники Opera Presto? Ну соберёшь ты их, а что дальше, по даркнету ныкаться?

Куда интереснее NetSurf развивать, на мой взгляд.

hobbit ★★★★★
()
Ответ на: комментарий от hobbit

Ты про утёкшие исходники Opera Presto

Да, про них.

а что дальше

А дальше пощупаю как оно себя покажет в обычных задачах. Плюс ещё слышал, что там есть встроенный торрент-клиент. Интересно его тоже потыкать.

vbcnthfkmnth123 ★★★★★
() автор топика
Ответ на: комментарий от vbcnthfkmnth123

А дальше пощупаю как оно себя покажет в обычных задачах.

А смысл? Ну покажет оно себя, дальше что? Утёкшее оно и есть утёкшее. Ты же даже если патчи какие-то напишешь, выложить не сможешь без плясок с бубном.

А в NetSurf, кстати, последний коммит 3 дня назад был.

hobbit ★★★★★
()
Ответ на: комментарий от hobbit

А смысл? Ну покажет оно себя, дальше что?

Дальше инструкцию напишу как это все собрать на онтопике и опубликую, чтобы не забыть. Если хорошо покажет себя в качестве торрнтокачалки, то буду её дальше для того использовать. На лор например буду постить с оперы. А то у меня которые легковестне браузеры, например Mosaic вообще не могут лор открыть.

Ты же даже если патчи какие-то напишешь

Там все не совсем так. Патчи спокойно выкладывают на гитхаб, на них всем все равно.

https://github.com/PrestoXen/openopera-patches

vbcnthfkmnth123 ★★★★★
() автор топика
Последнее исправление: vbcnthfkmnth123 (всего исправлений: 1)
Ответ на: комментарий от vbcnthfkmnth123

Патчи спокойно выкладывают на гитхаб

the code is hosted elsewhere (tip: search for prestocore-fan)

Бгг. Ладно, про патчи уговорил. А вот сам код уже не совсем спокойно, пару репозиториев прикрыли. Всё равно – бубен, пляски, перспектива того, что если это станет интересно хотя бы кому-то больше полутора анонимусов, прикрыть могут и патчи. Кстати, в каком порядке их накладывать, ясность есть? Или их совместимость друг с другом вообще не гарантируется?

hobbit ★★★★★
()
Последнее исправление: hobbit (всего исправлений: 1)
Ответ на: комментарий от hobbit

Да, но для таких проектов это обычное дело. Для reVC тоже самое, хотя проект там вполне нормальный. Единственное что я заметил, что они там надпись GTA Vice City забыли убрать из заголовка reVC. Не успели.

Вот с порядком наложения я тоже не знаю пока. Пока нагуглил только инструкцию для винды и порядок наложения для неё же. Погуглю ещё, может найду ещё.

vbcnthfkmnth123 ★★★★★
() автор топика
Последнее исправление: vbcnthfkmnth123 (всего исправлений: 2)
Ответ на: комментарий от vbcnthfkmnth123

Пока нагуглил только инструкцию для винды и порядок наложения для неё же. Погуглю ещё, может найду ещё.

Нет, всё-таки про генерацию изображений нейросетями у тебя читать интереснее.

hobbit ★★★★★
()

Что в промпте делает «bs»? Что сие значит?

Xintrea ★★★★★
()
Ответ на: комментарий от vbcnthfkmnth123

Модель - это много изображений в определенном стиле.

Модель - это описание нейросетки со всеми слоями и весами. При чем тут изображения?

Xintrea ★★★★★
()
Ответ на: комментарий от Xintrea

Да, часто так приходится делать чтобы люди меня понимали. Потому что есть фактические значения слов и общеупотребительные. И временами приходится грубо говоря называть черное белым, потому что иначе люди меня просто не могут понять.

vbcnthfkmnth123 ★★★★★
() автор топика
Ответ на: комментарий от Shadow

С маяком, где свет завихряется, и гифкой-луной с буквой «N»?)

zx_gamer ★★
()

Запустил. Все работает. Прикольно.

Из неприкольного: он поставил питоновские либы. Весят они неприлично много.

zx_gamer ★★
()
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.