Firma Amazon zaprezentowała dziś Nova Sonic, zaawansowany model przetwarzania mowy na mowę, który umożliwia programistom tworzenie aplikacji mogących komunikować się w czasie rzeczywistym za pomocą głosu przypominającego głos ludzki. Amazon twierdzi, że ten nowy model audio charakteryzuje się najlepszym w branży stosunkiem ceny do jakości i niskim opóźnieniem.
Zazwyczaj podczas tworzenia aplikacji obsługującej polecenia głosowe programiści muszą pracować z wieloma modelami jednocześnie:
- Model rozpoznawania mowy umożliwiający konwersję dźwięku na tekst.
- Duży Model Językowy (LLM) służący zrozumieniu i generowaniu odpowiedzi.
- Model zamiany tekstu na mowę.
Takie podejście jest nie tylko skomplikowane, ale często pomija również ważne konteksty akustyczne, takie jak barwa głosu, prozodia i styl mówienia.

Nova Sonic stawia czoła temu wyzwaniu, integrując rozumienie i generowanie dźwięku w jednym modelu. Ujednolicone podejście pomaga modelowi uchwycić ton, styl i dane wejściowe audio, tworząc bardziej naturalne dialogi. Pozwala również określić odpowiedni czas reakcji i lepiej radzić sobie z wtargnięciami.
Nova Sonic obsługuje głosy męskie i żeńskie, z wieloma akcentami angielskimi, takimi jak amerykański i brytyjski. Programiści mogą uzyskiwać dostęp do modeli za pośrednictwem Amazon Bedrock, korzystając z dwukierunkowego interfejsu API przesyłania strumieniowego, który obsługuje wywoływanie funkcji. Model ten posiada również wbudowane funkcje ochrony, takie jak moderowanie treści i znakowanie wodne.
W związku z tym w zeszłym miesiącu firma OpenAI ogłosiła nową generację modeli zamiany mowy na tekst – gpt-4o-transcribe i gpt-4o-mini-transcribe – charakteryzujących się znacznymi usprawnieniami w zakresie współczynnika błędów słownych, rozpoznawania języka i dokładności w porównaniu z poprzednimi modelami Whisper.