Dostępnych jest wiele narzędzi AI do zamiany tekstu na wideo. Choć technologia ta jest naprawdę imponująca, zawsze jest coś w końcowym efekcie, co nie działa. Zajęło trochę czasu, aby dokładnie określić problem, ale ostatecznie wszystko sprowadzało się do jednej rzeczy: efektu Doliny Niepokoju.
Chociaż do tworzenia efektów wizualnych w projektach wideo można wykorzystać narzędzia oparte na sztucznej inteligencji, nie zaleca się korzystania wyłącznie ze sztucznej inteligencji podczas tworzenia materiału wideo, ponieważ wygląda to zbyt dziwnie.
Największy problem z narzędziami AI do zamiany tekstu na wideo
Generowanie filmów przy użyciu sztucznej inteligencji (AI) dokonało dużego postępu w krótkim czasie dzięki postępowi w dziedzinie głębokiego uczenia (Deep Learning). W 2023 roku, gdy generacja filmów opartych na sztucznej inteligencji rozkwitnie, możesz pamiętać ten klip, na którym Will Smith je spaghetti i staje się viralem. Chociaż w tamtych czasach tego typu technologia była przełomowa, nie sposób zaprzeczyć, że wyglądała bardzo nienaturalnie i niekomfortowo.
W 2024 roku narzędzia AI do kształtowania wideo staną się lepsze, zapewniając płynniejszy obraz i bardziej realistyczny ruch. Spójrz na różnice między filmami stworzonymi za pomocą Runway Gen-2 w 2023 r. a filmami opublikowanymi w OpenAI w 2024 r., które miały na celu zaprezentowanie Sora AI. Sora nie jest jeszcze dostępna do użytku publicznego, ale jej jakość wygląda obiecująco:
Mimo poprawy wyniki nadal nie są jednoznaczne. Po pierwsze, Sora nie jest jeszcze gotowy do użycia, więc w dalszym ciągu jesteśmy zmuszeni korzystać z mniej zaawansowanych generatorów, które mogą generować przerażające rezultaty, takie jak spaghetti w teledysku Willa Smitha.
Obejrzyj po prostu film stworzony przez PixVerse, korzystając z podpowiedzi „Osoba spacerująca po parku w słoneczny dzień, uśmiechająca się i machająca do kamery. Nad głową latają ptaki, a drzewa delikatnie kołyszą się na wietrze” . (Przybliżone tłumaczenie: „Osoba spaceruje po parku w słoneczny dzień, uśmiechając się i machając do kamery. Ptaki latają nad głową, a drzewa kołyszą się delikatnie na wietrze”).
Pierwsze dwie sekundy wydają się w porządku, dopóki palce, włosy i twarz osoby nie zaczynają rozpływać się w powietrzu! Mimo że pojawiają się coraz bardziej zaawansowane narzędzia, takie jak Sora, które zapewniają nam dokładniejsze i piękniejsze filmy, wciąż jest coś niepokojącego w ludziach i krajobrazach generowanych przez sztuczną inteligencję.
Podczas gdy starsze modele często generowały filmy wyraźnie pokazujące sztuczną inteligencję, niczym obrazy w stylu animacji poklatkowej, ulepszenia w nowszych narzędziach wydają się niemal zbyt idealne.
Nienaturalne, niewygodne i pozbawione życia. To jest właśnie efekt doliny niepokoju – podobny do ludzkiego, ale nie do końca.
Bez względu na to, jak dobre są te narzędzia, efekt Doliny Niepokoju zawsze istnieje. Jeśli nie zależy Ci na abstrakcyjnym, surrealistycznym stylu, który można spotkać wyłącznie w snach, nie powinieneś polegać na narzędziach AI do zamiany tekstu na wideo w żadnym ze swoich projektów wideo.