29 marca firma OpenAI zaprezentowała oprogramowanie Voice Engine, które wykorzystuje sztuczną inteligencję do tworzenia głosów na podstawie krótkich nagrań trwających zaledwie 15 sekund i potrafi odczytywać tekst. Potrafi także odtwarzać mowę w językach obcych, nawet w przypadku nagrań, w których wykorzystano wyłącznie język angielski.
Voice Engine jest rozwijany przez OpenAI od 2022 roku i został przetestowany z grupą klientów pod koniec 2023 roku. W nim oprogramowanie wykazało zdolność do wspierania czytania, tłumaczenia treści między różnymi językami i tworzenia głosów dla osób, które utraciły zdolność mówienia.

OpenAI podkreśliło jednak również potencjalne ryzyko związane z technologią imitacji głosu, zwłaszcza w kontekście wyborów prezydenckich w USA. To jest jeden z powodów, dla których podjęto decyzję o ograniczeniu dostępu i nieudostępnianiu tej technologii powszechnie.
Według firmy będącej właścicielem ChatGPT, zapowiedź Voice Engine ma zachęcić menedżerów i opinię publiczną do zwiększenia czujności w obliczu oszustw wykorzystujących sztuczną inteligencję. Twórcy ostrzegają również, że przestępcy mogą używać oprogramowania imitującego głos w celu kradzieży danych osobowych lub włamywania się do systemów bezpieczeństwa banku.
„Ważne jest, aby ludzie zrozumieli, w jakim kierunku zmierza ta technologia, niezależnie od tego, czy udostępnimy ją szeroko, czy nie” – stwierdził OpenAI.

Technologia edycji głosu wykorzystująca sztuczną inteligencję zyskała popularność po tym, jak w styczniu w mediach społecznościowych pojawiło się nagranie imitujące głos prezydenta USA Joe Bidena wzywającego ludzi do „nieuczestniczenia w prawyborach Demokratów w New Hampshire”.
Pindrop Security, firma specjalizująca się w wykrywaniu oszustw głosowych, przeanalizowała nagranie i doszła do wniosku, że jest to deepfake, wykorzystując technologię ElevenLabs, startupu opracowującego oprogramowanie wykorzystujące sztuczną inteligencję, które generuje głosy w ponad 20 językach.
Według magazynu Fortune, deepfake'owy głos pana Bidena wzbudził zaniepokojenie wielu ekspertów i urzędników wyborczych w USA, nazywając go „próbą ingerencji w wybory wspomagane sztuczną inteligencją”. Niektóre oceny wskazują, że nie tylko łatwo jest rozpowszechniać deepfake'i audio, ale istnieje również ryzyko, że osoby o złych zamiarach wykorzystają tę technologię do wpływania na wyniki wyborów i zniechęcania wyborców do pójścia na wybory.