Firma OpenAI właśnie oficjalnie wprowadziła znaczącą modernizację możliwości generowania obrazów AI w ChatGPT. To ważny krok naprzód w porównaniu z używaniem oddzielnego modelu generowania obrazów, jak w poprzednim modelu DALL-E. Ta nowa funkcja została zintegrowana bezpośrednio z GPT-4o, co przyniosło znaczące udoskonalenia.
Pokonywanie wrodzonych ograniczeń
Choć wiele obecnych modeli sztucznej inteligencji do generowania obrazów potrafi tworzyć imponujące obrazy artystyczne, często mają problemy z elementami takimi jak tekst, logotypy czy przedmioty codziennego użytku. Firma OpenAI twierdzi, że nowy GPT-4o może przezwyciężyć te ograniczenia dzięki następującym możliwościom:
- Wyświetlaj tekst poprawnie
- Ściśle przestrzegaj wymagań użytkownika
- Wykorzystaj wiedzę ogólną i kontekst konwersacyjny
- Umożliwia edycję przesłanych zdjęć lub tworzenie nowych zdjęć na podstawie zdjęć oryginalnych
- Szeroko dostępny
Ta nowa funkcja jest obecnie udostępniana użytkownikom ChatGPT Free, ChatGPT Plus, Pro i Team, a w nadchodzących tygodniach będzie dostępna także w ChatGPT Enterprise i Edu. Warto zauważyć, że będzie to domyślne narzędzie do tworzenia obrazów w ChatGPT, dzięki czemu użytkownicy będą mieli do niego łatwy dostęp bez konieczności korzystania z dodatkowych opcji. Użytkownicy mogą personalizować zdjęcia za pomocą:
- Konkretny współczynnik proporcji
- Dokładny kolor (za pomocą kodu szesnastkowego)
- Przezroczyste tło
- Obsługa wielu platform

Oprócz ChatGPT funkcja ta będzie również dostępna na platformach Sora (generowanie obrazów), dedykowanym DALL·E GPT i API GPT-4o (dla deweloperów, premiera w nadchodzących tygodniach).
Mimo obietnic wielu udoskonaleń, nowy model nadal ma pewne ograniczenia:
- Czas generowania obrazu może wynosić do 1 minuty ze względu na dużą szczegółowość
- Niechciane przycinanie zdjęć pionowych
- Czasami „fabrykuj” informacje, nie wymagając zbyt wiele kontekstu
- Trudności w przetwarzaniu więcej niż 10-20 pojęć na raz
- Trudności z językami niełacińskimi
- Szczegółowe poprawki (np. błędy ortograficzne) nie są zbyt skuteczne
- Trudno wyświetlać szczegółowe informacje w małych rozmiarach
Wszystkie obrazy wygenerowane przez GPT-4o będą zawierać metadane C2PA, co umożliwi weryfikację pochodzenia przy użyciu wewnętrznych narzędzi OpenAI.
Mimo pewnych ograniczeń GPT-4o obiecuje zapewnić dokładniejsze i bardziej konfigurowalne obrazowanie. Firma OpenAI zapowiada, że w nadchodzących miesiącach będzie nadal udoskonalać swój model, otwierając nowe możliwości tworzenia treści wizualnych z wykorzystaniem sztucznej inteligencji.
Dzięki tej dużej aktualizacji OpenAI umacnia swoją pozycję lidera w wyścigu kreatywnych rozwiązań AI, zapewniając użytkownikom na wielu platformach bardziej płynne i wydajne działanie.