Чарівний олівець, версія 2022. Чи може робот написати симфонію та намалювати картину?
Фото: DALLE2 / Michał Jaroń
У культовій казці «Чарівний олівець» головний герой Пйотрек разом зі своїм песиком титульним олівцем малювали предмети, які потім чарівним чином оживали. Хто з нас хоч на мить не мріяв стати володарем такої речі? Що, якщо ви трохи видозміните цю ідею і замість того, щоб створювати реальність за допомогою традиційного інструменту, опишете свої бачення природною мовою, яка потім матеріалізується? Звучить як наукова фантастика, але завдяки новітнім рішенням у сфері штучного інтелекту такий «чарівний» інструмент ближче, ніж ми думаємо. Міхал Яронь, спеціаліст зі штучного інтелекту, запрошує вас у світ штучного інтелекту, де ви можете створювати витвори мистецтва навіть без художнього таланту.
Автопортрет Вінсента Ван Гога в окулярах VR, який виступає на технічній конференції та носить динозавра у смокінгу, фотографія присяги Дональда Дака як президента США – це лише невелика частина зображень, які революційні інструменти створили на штучній основі. інтелект (AI) може генерувати. Навіть з абстрактних описів вони створюють настільки реалістичні графіки, що їх практично неможливо відрізнити від продуктів людської праці.
Одним із таких інструментів, від якого останніми місяцями божеволіє технологічний світ, є Dalle-2 (назва відсилає до Сальвадора Далі та героя популярного мультфільму – симпатичного робота Wall-E), створеного OpenAI. Це буде головний герой нашої подорожі по країні, в якій штучний інтелект отримав мистецькі навички. Але на ринку також є кілька інших подібних систем, які можуть генерувати переконливу графіку зі словесного опису, включаючи дуже популярні MidJourney, Stable Diffusion або Imagen від Google.
Всі вони з’явилися на ринку приблизно в один час. У світі інновацій це явище називається «множинними відкриттями» й передбачає, що більшість наукових відкриттів виникають незалежно й приблизно в один і той самий час у результаті тенденцій у суспільстві та зростаючого розуміння певної галузі. Потік цих інструментів не є результатом одного моменту еврики, а скоріше результатом систематичного розвитку цілого поля. Давно посіяне насіння почало плодоносити в аналогічний час.
Зображення, створені Dalle-2, як описано авторомDalle-2 / Michał Jaroń
На початку був перцептрон
Більшість сучасних досягнень штучного інтелекту базується на т. зв нейронні мережі – біологічно інспіровані обчислювальні системи, побудовані подібно до людського мозку: з нейронів і зв’язків між ними (синапсів). Звичайно, штучні нейронні мережі фізично не складаються з нейронів і синапсів – це лише абстракція будівельних блоків, які складають систему.
Вони також не є новою концепцією – передбачається, що перші згадки про них в науковій літературі з’явилися ще в 1940-х рр. Теоретична концепція швидко знайшла своє перше практичне втілення – в 1958 році психолог з Корнельського університету запропонував просту модель, що моделює робота одного нейрона, який називається перцептроном. Однак один персептрон неспроможний «опанувати» більш складні питання.
Але й це не зайняло багато часу. Через рік була створена перша штучна нейронна мережа, що складається з багатьох нейронів. Адалін призначений для зниження шуму на лініях зв’язку. Цікаво, що завдяки геніальній і простій конструкції варіанти цього рішення використовуються і сьогодні.
Після початкових успіхів інтерес до нейронних мереж стрімко зріс, але через рівень технологічного прогресу того часу очікування вийшли за межі можливостей. З кінця 1960-х до початку нового тисячоліття був період значного зниження інтересу та фінансування досліджень штучного інтелекту. Цей період застою відомий як «ІІ зима». «Зима штучного інтелекту» була для штучного інтелекту тим же, чим було середньовіччя для науки. Звичайно, вся сфера не стояла на місці – було створено багато концепцій, які зараз складають основу для більш просунутих рішень.
Останні роки стали часом справжньої революції в світі AI, «весни штучного інтелекту». Досить сказати, що перша версія Dalle побачила світ у січні 2021 року, а менш ніж через півтора року вийшла друга, більш просунута версія. Порівняння результатів їхньої «творчості» показує, наскільки швидко розвивається галузь. Прогрес у якості створених зображень вражає.
Картина в стилі Клода Моне із зображенням лисиці, що сидить у полі під час сходу сонцяПорівняння зображень, створених Dalle-1 і Dalle-2 для вищезгаданих описМіхал Яронь
Нескінченний Лувр
Як створюються такі образи? Від введення словесного опису нашого бачення до появи згенерованої графіки проходить буквально кілька секунд. Ми бачимо зображення, яких ще ніхто не бачив, створені за нашою ідеєю з домішкою творчості штучного інтелекту.
Ми починаємо нашу пригоду з нестаріючої класики – портрета Джоконди. Щоб перевірити можливості штучного інтелекту, ми спочатку кидаємо виклик машині – хотіли б побачити портрет Джоконди, але в стилі роботи Енді Ворхола.
Вже перша спроба дає ефект електризації – машина не тільки відтворює характер оригіналу, але й задовільно підкреслює стиль художника.
Мона Ліза в стилі Енді УорхолаDalle-2 / Michał Jaroń
Планка тільки зростає – під час наступної спроби ми просимо машину згенерувати бачення «грецького філософа Платона, який виступає на популярній конференції TEDx». Dalle-2 впорався з цим завданням трохи гірше – на перший погляд помітні неточності у візуалізації: розмитість, легке спотворення обличчя. З іншого боку – семантична структура графіки знову напрочуд гарна – матеріалізація наших бачень дозволяє нам подорожувати в часі та побачити, як би сьогодні виглядав відомий філософ.
Читайте далі після входу
Отримайте доступ до преміум-контенту безкоштовно та без реклами