Home
» Wiki
»
Cerebras wprowadza najszybszą na świecie technologię wnioskowania AI, 20 razy wydajniejszą niż NVIDIA
Cerebras wprowadza najszybszą na świecie technologię wnioskowania AI, 20 razy wydajniejszą niż NVIDIA
Firma Cerebras Systems właśnie oficjalnie zaprezentowała rozwiązanie Cerebras Inference, uważane za najszybsze na świecie rozwiązanie do wnioskowania oparte na sztucznej inteligencji. Rozwiązanie Cerebras Inference zapewnia wydajność do 1800 tokenów na sekundę w przypadku modeli Llama 3.1 8B (8 miliardów parametrów) oraz 450 tokenów na sekundę w przypadku modeli Llama 3.1 70B, co jest wynikiem niemal 20-krotnie szybszym od rozwiązań do wnioskowania AI opartych na procesorach graficznych NVIDIA dostępnych w dzisiejszych chmurach hiperskalowych na całym świecie, w tym w Microsoft Azure.
Oprócz niesamowitej wydajności, cena usług tego nowego rozwiązania wnioskowania jest również bardzo niska, stanowiąc ułamek ceny popularnych platform chmurowych GPU. Na przykład klient może otrzymać milion tokenów za jedyne 10 centów, co zapewnia 100-krotnie lepszy stosunek ceny do jakości w przypadku obciążeń związanych ze sztuczną inteligencją.
16-bitowa precyzja i 20-krotnie szybsza prędkość wnioskowania Cerebras umożliwią programistom tworzenie wydajnych aplikacji AI nowej generacji bez uszczerbku dla szybkości i kosztów. Ten przełomowy stosunek ceny do wydajności jest możliwy dzięki systemowi Cerebras CS-3 i procesorowi AI Wafer Scale Engine 3 (WSE-3). CS-3 oferuje 7000 razy większą przepustowość pamięci niż Nvidia H100, rozwiązując tym samym techniczny problem przepustowości pamięci w przypadku generatywnej sztucznej inteligencji.
Cerebras Inference jest obecnie dostępny na następujących trzech poziomach:
Bezpłatny poziom oferuje darmowy dostęp do interfejsu API i duże limity użytkowania dla każdego, kto się zarejestruje.
Poziom Developer Tier jest przeznaczony do elastycznych wdrożeń bezserwerowych, oferując użytkownikom punkty końcowe API za ułamek kosztów istniejących alternatyw na rynku. Modele Llama 3.1 8B i 70B kosztują odpowiednio zaledwie 10 centów i 60 centów za milion tokenów.
Plany Enterprise Tier oferują precyzyjnie dostrojone modele, niestandardowe umowy o poziomie usług i dedykowane wsparcie. Rozwiązanie to idealnie nadaje się do obsługi stałych obciążeń. Przedsiębiorstwa mogą uzyskać dostęp do rozwiązania Cerebras Inference za pośrednictwem zarządzanej przez Cerebras prywatnej chmury lub lokalnie.
Dzięki rekordowej wydajności, konkurencyjnym cenom i otwartemu dostępowi do interfejsu API Cerebras Inference wyznacza nowy standard otwartego rozwoju i wdrażania LLM. Jako jedyne rozwiązanie umożliwiające zarówno szybkie szkolenie, jak i wnioskowanie, Cerebras otwiera zupełnie nowe możliwości dla sztucznej inteligencji.
Trendy w dziedzinie sztucznej inteligencji rozwijają się błyskawicznie, a firma NVIDIA ma obecnie dominującą pozycję na rynku, a pojawienie się takich firm jak Cerebras i Groq zwiastuje potencjalną zmianę dynamiki całej branży. W obliczu rosnącego zapotrzebowania na szybsze i tańsze rozwiązania do wnioskowania oparte na sztucznej inteligencji, rozwiązania takie jak Cerebras Inference są w dobrej pozycji, aby zaryzykować i zająć dominującą pozycję firmy NVIDIA, zwłaszcza w obszarze wnioskowania.