Коли ШІ вчиться говорити, співати й їсти водночас — світ уже ніколи не буде таким, як раніше.
У травні 2025 року Google представив Veo 3 — нову модель генерації відео на базі штучного інтелекту. Це не просто апдейт — це прорив. Вперше в історії комерційно доступний AI-відеогенератор вміє не лише створювати візуальну картинку, а й синхронізований звуковий супровід: голоси, діалоги, спецефекти та музику. Все це — у відео тривалістю до 8 секунд у високій роздільній здатності.
Але давайте чесно — кого хвилює технологія без веселих експериментів?
🍝 Спагеті, Вілл Сміт і дивне похрускування
Як тільки з’явився доступ до Veo 3, користувачі одразу згадали легендарний мем: «Вілл Сміт їсть спагеті». Це своєрідний тест для будь-якого ШІ-генератора відео. Все почалося ще у березні 2023 року, коли мережею розлетівся моторошно смішний ролик, створений на основі відкритого AI-модуля ModelScope. Вілл Сміт, спагеті, дивна міміка і повна відсутність аудіо — вийшла абсурдна суміш, що запам’яталась кожному.
Навіть сам Вілл Сміт пізніше пожартував над цим відео, повторивши сцену вживу у лютому 2024 року. Так мем увійшов в історію як індикатор того, як (не) варто створювати AI-відео.
Тепер цей тест повторив розробник додатків Javi Lopez, але вже з Veo 3, і що ми отримали?
🧏♂️ Вілл Сміт (чи радше — його цифровий двійник) хрустить спагеті.
Так, хрумтить. Звучить неапетитно? Зате дуже технологічно. Google ще експериментує зі звуковими ефектами, і, схоже, модель навчалась на великій кількості відео з хрусткими звуками пережовування. Як наслідок — замість м’якого “сьорбання” макаронів, ми чуємо щось середнє між морквою і хмизом.
Це типова проблема ШІ: генеративні моделі лише передбачають, що має статися, ґрунтуючись на патернах з навчальних даних. Якщо в цих даних щось було занадто часто або занадто рідко — результат буде відповідно перекошений.

🤖 Як Google фільтрує знаменитостей
До речі, якщо ви спробуєте самостійно створити “Вілла Сміта”, вас зустріне контент-фільтр Google. У Veo 3 заборонено використовувати імена реальних знаменитостей — принаймні поки що. Але якщо трохи змінити запит на щось умовне, типу: “чоловік з темною шкірою їсть спагеті” — результат буде подібний. І… знову хрумтить.
🎭 А якщо цей чоловік ще й співатиме оперу?
Чому б не розважитись на повну? Команда Ars Technica вирішила ускладнити завдання для Veo 3 — і попросила ШІ створити відео, де чоловік співає комедійну оперу англійською про спагеті, сидячи за кухонним столом… і водночас їсть.
І що ви думаєте? AI впорався. Він не тільки заспівав, але й зберіг драматичність, міміку і навіть ритм. Так, це вже не просто відео — це короткий мюзикл із цифровим актором.
🦈 Чоловік у костюмі акули читає реп про Ars Technica
На цьому фантазія не зупинилась. Ще один приклад: людина в костюмі акули читає реп на сцені про медіа Ars Technica. Сюрреалізм? Безперечно. Але саме такий сюрреалізм тепер може створювати кожен, хто має доступ до Veo 3.

🌐 Культурна сингулярність вже близько?
Що ми маємо на виході? Усього за два роки штучний інтелект пройшов шлях від беззвучного жаху до повноцінного кіно з голосами, музикою і персонажами, які можуть їсти, співати й жартувати. Вже зараз Veo 3 здатен створити щось схоже на реальне відео з вами, зі мною, з Віллом Смітом (ну майже)… і саме це викликає етичні й правові питання.
Так, поки що Google обмежує створення образів реальних знаменитостей. Але що буде далі? Наскільки легко буде підробити будь-яке відео?
Підсумок:
Google Veo 3 — це справжній стрибок у майбутнє відеогенерації. Але хрумкі спагеті показали, що технологіям ще треба “доваритися”. І поки що ми сміємося над тим, як штучний Вілл Сміт жує пасту ніби це чіпси, але завтра — сміятись може бути вже не до сміху.
Bon appétit, пані та панове.
Джерело: ArsTechnika