Google представи невронната мрежа Imagen
разни / / May 24, 2022
И го прави поне толкова добре, колкото DALL-E 2.
Google обяви Imagen е невронна мрежа, която преобразува текстова заявка в изображения. Тя е пряк конкурент DALL-E2 от OpenAI - което работи дори по-добре в някои сценарии.
За да разпознае текстова заявка, невронната мрежа използва големи езикови модели – на тях се основават и алгоритми за естествена обработка на реч като GPT-3.
Системата работи на три етапа. Първият рисува малко изображение с размери 64 x 64 пиксела, което се прецизира, докато невронната мрежа може да го промени, за да съответства по-добре на оригиналната заявка. След това изображението се мащабира до 256 x 256 пиксела и Imagen прецизира детайлите. На третия етап същото нещо се повтаря вече с платното с краен размер - 1024 x 1024 пиксела.
Текстът на изследването отбелязва, че Imagen се справя с разбирането на сложни заявки по-добре от DALL-E 2. Например, за заявката „Панда прави лате арт“, DALL-E 2 върна изключително лате арт с панди, докато невронната мрежа на Google успя да даде предимно правилни резултати:
Но Google също така признава, че никоя от тези невронни мрежи не може да се справи със заявката „астронавт на езда“: и двете упорито поставят астронавта върху коня, а не обратното. И двете очевидно имат къде да растат.
Резултатите от независима оценка на зрителите показват, че Imagen превъзхожда DALL-E 2 по отношение на точност и уместност. И въпреки че това сравнение може да се счита за субективно, подобни резултати все още са впечатляващи, като се има предвид това DALL-E 2 досега беше недостижим идеал, с който други невронни мрежи от подобно естество не биха могли да се сравнят. дестинация.
Във всеки случай Imagen засега остава експериментален проект, до който обикновените потребители нямат достъп. Не е ясно колко време ще мине, преди Google да създаде услуга за отворен достъп, базирана на нея.
Прочетете също🧐
- Нова невронна мрежа Paint Transformer превръща снимка в обект за рисуване
- Polaroid на бъдещето: Новата невронна мрежа на NVIDIA превръща 2D изображения в 3D модели
- Sber стартира невронната мрежа ruDALL-E, която генерира изображения според описанието
Най-добрата оферта за седмицата: отстъпки от AliExpress, Lamoda, Mixit и други магазини