Преди 5 години Generative Adversarial Networks (GANs) започнаха революция в дълбокото обучение. Тази революция доведе до някои големи технологични пробиви. Генеративните състезателни мрежи бяха представени от Иън Гудфелоу и други в статията, озаглавена „Генеративни състезателни мрежи“ — https://arxiv.org/abs/1406.2661. Академичните среди приеха GAN с отворени ръце, а индустрията също приветства GAN с много шум. Възходът на GAN беше неизбежен.

Първо, най-доброто нещо за GANs е тяхната природа на обучение, което е без надзор. GAN не се нуждаят от етикетирани данни, което прави GAN мощни, тъй като не е необходима скучната работа по етикетиране на данни.

Второ, потенциалните случаи на употреба на GAN са поставили GAN в центъра на разговорите. Те могат да генерират висококачествени изображения, да подобряват снимки, да генерират изображения от текст, да конвертират изображения от един домейн в друг, да променят външния вид на изображението на лицето с напредване на възрастта и много други. Списъкът е безкраен. В тази статия ще разгледаме някои от широко популярните GAN архитектури.

Трето, безкрайните изследвания, провеждани около GAN, са толкова хипнотизиращи, че привличат вниманието на всяка друга индустрия. Ще говорим за големи технологични пробиви в по-късния раздел на тази статия.

Раждането

Generative Adversarial Network или накратко GAN е набор от две мрежи, генераторна мрежа и дискриминаторна мрежа. Тези две мрежи могат да бъдат невронни мрежи, вариращи от конволюционни невронни мрежи, повтарящи се невронни мрежи до автоматични енкодери. При тази настройка две мрежи участват в състезателна игра и се опитват да се надминат едновременно, помагайки си в собствените си задачи. След хиляди итерации, ако всичко върви добре, генераторната мрежа става перфектна в генерирането на реалистично изглеждащи фалшиви изображения, а дискриминаторната мрежа става перфектна в определянето дали показаното й изображение е фалшиво или истинско. С други думи, мрежата на генератора трансформира случаен вектор на шума от латентно пространство (не всички GAN извадки от латентно пространство) в извадка от реален набор от данни. Обучението на GAN е много интуитивен процес. Ние едновременно обучаваме и двете мрежи и те се подобряват с времето.

GAN имат много случаи на използване в реалния свят, като генериране на изображения, генериране на произведения на изкуството, генериране на музика и генериране на видео. Освен това те могат да подобрят качеството на вашите изображения, да стилизират или оцветят вашите изображения, да генерират лица и да изпълняват много други интересни задачи.

Изображението по-горе показва архитектурата на ванилия GAN мрежа. Първо, D-измерен вектор на шума се взема проба от латентно пространство и се подава към мрежата на генератора. Генераторната мрежа преобразува този вектор на шума в изображение. След това генерираното изображение се подава към дискриминаторната мрежа за класификация. Дискриминаторната мрежа продължава да получава изображения от реалния набор от данни и изображенията, генерирани от генераторната мрежа. Неговата задача е да прави разлика между реални и фалшиви изображения. Всички GAN архитектури следват един и същ дизайн. Това беше раждането на GAN. Сега изследвайте юношеския етап на GANs.

Юношеството

В своето юношество GAN произвеждат широко популярни архитектури като DCGAN, StyleGAN, BigGAN, StackGAN, Pix2pix, Age-cGAN, CycleGAN. Тези архитектури бяха представени с много обещаващи резултати. Разглеждайки резултатите, беше доста ясно, че GANs са достигнали своя юношески етап. Нека разгледаме подробно тези архитектури.

DCGAN

За първи път конволюционните невронни мрежи бяха използвани в GAN и постигнаха впечатляващи резултати. Преди това CNN показаха безпрецедентни резултати в контролирани задачи за компютърно зрение. Но в GAN, CNN бяха неизследвани. DCGAN бяха въведени в статията, озаглавена „Обучение на неконтролирано представяне с дълбоки конволюционни генериращи съпернически мрежи“ от Алек Радфорд, Люк Мец, Сумит Чинтала. Това беше основен крайъгълен камък в изследванията на GAN, тъй като въведе големи архитектурни промени за справяне с проблеми като нестабилност на обучението, колапс на режима и вътрешно ковариатно изместване. Оттогава бяха въведени множество GAN архитектури, базирани на архитектурата на DCGAN.

BigGAN

Това е най-новата разработка в GAN за генериране на изображения. Стажант на Google и двама изследователи от подразделението DeepMind на Google публикуваха документ, озаглавен „Large Scale GAN Training for High Fidelity Natural Image Synthesis“, достъпен на „https://arxiv.org/abs/1809.11096“. Този документ е стажантски проект на Андрю Брок от университета Heriot-Watt в сътрудничество с Джеф Донахю и Карън Симонян от DeepMind.

Тези изображения са генерирани от BigGAN и както виждате, те са с впечатляващо качество. За първи път GAN генерираха изображения с висока прецизност и малко разнообразие. Предишният най-висок начален резултат беше 52,52, а BigGAN постигна начален резултат от 166,3, което беше 100% по-добро от състоянието на техниката (SOTA). Освен това те подобриха резултата за началното разстояние на Фреше (FID) от 18,65 на 9,6. Това бяха много впечатляващи резултати и се надявам да видя още развитие в тази област. Най-важното подобрение беше ортогоналното регулиране на генератора.

Не е ли впечатляващо!

StyleGAN

StyleGAN е друг голям пробив в изследванията на GAN. StyleGAN беше представен от Nvidia в статията, озаглавена „Архитектура на генератор, базирана на стил за генерираща състезателна мрежа“, достъпна на следната връзка https://arxiv.org/pdf/1710.10196.pdf.

StyleGAN поставя нов рекорд в задачите за генериране на лица. В основата на алгоритъма са техниките за трансфер на стилове или смесването на стилове. Освен генериране на лица, той може да генерира висококачествени изображения на автомобили, спални и т.н. Това е голямо подобрение в областта на GAN и вдъхновение за колегите изследователи на дълбоко обучение.

StackGAN

StackGAN бяха предложени от Han Zhang, Tao Xu, Hongsheng Li и други в тяхната статия, озаглавена StackGAN: Text to Photo-Realistic Image Synthesis with Stacked Generative Adversarial Networks, която е достъпна на следната връзка: https://arxiv.org /pdf/1612.03242.pdf. Те използваха StackGAN, за да изследват синтеза на текст към изображение с впечатляващи резултати. StackGAN е двойка мрежи, които генерират реалистично изглеждащи изображения, когато са снабдени с текстово описание. Моята книга, озаглавена „Проекти за генеративни конкурентни мрежи“, има глава, посветена на StackGAN.

Както можете да видите на изображението по-горе, StackGAN генерира реалистично изглеждащи изображения на птици, когато им е предоставено текстово описание. Най-важното е генерираните изображения да приличат правилно на предоставения текст. Синтезът текст към изображение има много приложения от реалния свят, като генериране на изображения от текстови описания, преобразуване на история в текстова форма в комична форма, за създаване на вътрешни представяния на текстови описания.

CycleGAN

CycleGAN имат някои наистина интересни случаи на използване, като конвертиране на снимки в картини и обратно, конвертиране на снимка, направена през лятото, в снимка, направена през зимата, и обратно, или конвертиране на снимки на коне в снимки на зебри и обратно. CycleGAN бяха предложени от Jun-Yan Zhu, Taesung Park, Phillip Isola и Alexei A. Efros в документ, озаглавен „Несдвоен превод от изображение към изображение с помощта на циклично съгласувани състезателни мрежи“, който е достъпен на следната връзка: https ://arxiv.org/pdf/1703.10593. CycleGANs изследват различни случаи на използване на превод от изображение към изображение.

Pix2pix

За задачи за превод от изображение към изображение pix2pix също показа впечатляващи резултати. Независимо дали става въпрос за конвертиране на нощни изображения в дневни изображения или обратно, оцветяване на черно-бели изображения, превод на скици в снимки и много други, Pix2pix превъзхожда всички тези случаи на употреба. Мрежата pix2pix беше представена от Phillip Isola, Jun-Yan Zhu, Tinghui Zhou и Alexei A. Efros в тяхната статия, озаглавена „Превод от изображение към изображение с условни състезателни мрежи“, която е достъпна на следната връзка: https: //arxiv.org/abs/1611.07004.

Това беше интерактивна демонстрация, способна да генерира реални изображения от скици.

Age-cGAN (възрастови условни генериращи състезателни мрежи)

Остаряването на лицето има много случаи на употреба в индустрията, включително разпознаване на лице между възрастта, намиране на изгубени деца и в развлеченията. Стареенето на лицето с условни GAN беше предложено от Григорий Антипов, Моез Бакуш и Жан-Люк Дюгели в тяхната статия, озаглавена „Стареене на лицето с условни генеративни съпернически мрежи“, която е достъпна на следната връзка: https://arxiv.org/pdf/ 1702.01983.pdf.

Това изображение показва как Age-cGAN превежда лице от изходната възраст към целевата възраст.

Това бяха някои широко популярни GAN архитектури. Освен тях има хиляди GAN архитектури. От вашите изисквания зависи коя архитектура ще отговаря на нуждите ви.

Възхода

Както казва известният теоретичен физик Ричард Файнман:

„Това, което не мога да създам, не го разбирам“

Идеята зад GAN беше да се обучат мрежи, които разбират данните. Сега GAN започнаха да разбират данните, с това разбиране те започнаха да създават реалистично изглеждащи изображения. Нека станем свидетели на възхода на GAN.

Едмон дьо Белами

Едмонд де Белами,картина, създадена от Generative Adversarial Networks, беше продадена за зашеметяващата сума от $432 500 на търг на Christie’s. Това беше голяма стъпка в напредъка на GAN. За първи път целият свят стана свидетел на GAN и техния потенциал. Преди това GAN бяха предимно ограничени в изследователски лаборатории и използвани от инженери по машинно обучение. Този акт стана вход на GANs за широката общественост.

Този човек не съществува

Може да сте запознати с уебсайта https://thispersondoesnotexist.com. Миналия месец това беше из целия интернет. Уебсайтът https://thispersondoesnotexist.com, създаден от Филип Уан, който е софтуерен инженер в Uber. Той създаде този уебсайт въз основа на кода, издаден от NVIDIA, озаглавен StyleGAN. Всеки път, когато натиснете опресняване, той генерира ново фалшиво лице, което изглежда изненадващо истинско, не може да се каже дали е фалшиво или не. Това е плашещо AF, но в същото време и разрушително. Тази технология има потенциала да създава безкрайни виртуални светове.

Не е ли невероятно!

Deep Fakes
DeepFakes е друга страшна AF, но разрушителна технология. Въз основа на GAN, това може да постави лица на хора върху целево лице във видеоклипове. DeepFakes също беше навсякъде в Интернет. Хората спекулираха с недостатъците на тази технология. Но за изследователите на ИИ това беше голям пробив. Тази технология има потенциала да спести милиони долари във филмовата индустрия, където са необходими часове редактиране, за да се промени лицето на каскадьора с лицето на актьора.

Тази технология винаги ще бъде страшна, но от нас зависи дали ще я използваме за социално благо.

Тенденцията

В момента StyleGAN е шестият най-актуален python проект в GitHub. Броят на именуваните GAN, предложени досега, е в хиляди. Това хранилище има списък с популярни GAN и съответните им документи https://github.com/hindupuravinash/the-gan-zoo



В реалния свят

GAN се използват за подобряване на графиката на игрите. Много съм развълнуван от този случай на използване на GAN. Наскоро NVIDIA пусна видео, в което показа как GAN се използват за игровизиране на средата във видеото.

Заключение

В тази статия видяхме как GANs станаха известни и се превърнаха в глобален феномен. Надявам се, че ще видим демократизацията на GAN през следващите години. В тази статия започнахме с раждането на GAN. След това проучихме някои широко популярни GAN архитектури. И накрая, станахме свидетели на възхода на GAN. Когато видя негативна преса около GAN, съм объркан. Вярвам, че е наша отговорност да накараме всички да осъзнаят последиците от GAN и как можем етично и морално да използваме GAN по най-добрия начин. Нека всички се съберем и разпространим позитивността около GAN. GAN имат толкова голям потенциал за създаване на нови индустрии и работни места. Просто трябва да сме сигурни, че няма да попадне в грешни ръце.

Благодаря ви, че прочетохте.

Ако искате да се свържете, можете да се свържете с мен на [email protected]

Забележка: Наскоро публикувах книга за GAN, озаглавена „Generative Adversarial Networks Projects“, в която покрих повечето от широко популярните GAN архитектури и техните реализации. DCGAN, StackGAN, CycleGAN, Pix2pix, Age-cGAN и 3D-GAN са разгледани подробно на ниво внедряване. Всяка архитектура има глава, посветена на нея. Обясних тези мрежи на много прост и описателен език, използвайки Keras framework с бекенда на Tensorflow. Ако работите върху GAN или планирате да използвате GAN, прочетете го и споделете ценната си обратна връзка с мен на [email protected]



Можете да вземете копие от книгата от http://www.amazon.com/Generative-Adversarial-Networks-Projects-next-generation/dp/1789136679 https://www.amazon.in/Generative-Adversarial -Networks-Projects-next-generation/dp/1789136679?fbclid=IwAR0X2pDk4CTxn5GqWmBbKIgiB38WmFX-sqCpBNI8k9Z8I-KCQ7VWRpJXm7I https://www.packtpub.com/big-data-and-business-intelligence/ генеративни-съпернически-мрежови проекти? fbclid=IwAR2OtU21faMFPM4suH_HJmy_DRQxOVwJZB0kz3ZiSbFb_MW7INYCqqV7U0c

📝 Прочетете тази история по-късно в Журнал.

👩‍💻 Всяка неделя сутрин се събуждайте с най-забележителните истории от седмицата в Tech, които ви чакат във входящата кутия. „Прочетете бюлетина „Забележително в технологиите“.