Foxconn, firma najbardziej znana z produkcji iPhone'ów i innych produktów sprzętowych Apple, właśnie zaskoczyła wszystkich, ogłaszając swój pierwszy duży model językowy (LLM) zwany FoxBrain, który ma służyć do usprawnienia produkcji i zarządzania łańcuchem dostaw.
Tajwański producent twierdzi, że FoxBrain został wytrenowany przy użyciu zaledwie 120 procesorów graficznych Nvidia H100. Niniejszy LLM został w zasadzie opracowany na podstawie architektury Llama 3.1 firmy Meta, z 70 miliardami parametrów uzyskanych w wyniku destylacji. Koncepcja udoskonalenia LLM polega na wykorzystaniu modelu „nadrzędnego” i wytrenowaniu modelu „podrzędnego” w oparciu o jego odpowiedzi. Firma Foxconn przyznała również, że ich LLM nie dorównuje udoskonalonemu modelowi DeepSeek (Chiny), ale ogólna wydajność jest bardzo bliska światowym standardom.
Mówiąc o tym osiągnięciu, dr Yung-Hui Li, dyrektor Centrum Badań nad Sztuczną Inteligencją w Instytucie Badawczym Hon Hai (Foxconn), powiedział:
W ostatnich miesiącach rozwijanie zdolności rozumowania i efektywne wykorzystanie procesorów graficznych stopniowo stało się głównym trendem w dziedzinie sztucznej inteligencji. Nasz model FoxBrain przyjął bardzo skuteczną strategię szkoleniową, skupiając się na optymalizacji procesu szkoleniowego zamiast na bezmyślnym gromadzeniu mocy obliczeniowej.
Dzięki starannie zaprojektowanym metodom szkoleniowym i optymalizacji zasobów udało nam się zbudować lokalny model AI z silnymi możliwościami rozumowania.

Foxconn nie tylko składa produkty Apple, ale również produkuje serwery AI dla firmy Nvidia. FoxBrain, wraz ze 120 procesorami graficznymi H100, jest skalowany przy użyciu sieci Quantum-2 InfiniBand firmy Nvidia, a szkolenie trwa zaledwie około 4 tygodni (przy całkowitym koszcie obliczeniowym wynoszącym 2688 dni GPU). Firma Foxconn wygenerowała 98 miliardów wysokiej jakości tokenów danych przedtreningowych w języku chińskim tradycyjnym, przy czym długość okna kontekstowego wynosiła do 128 000 tokenów.
Partnerstwo między Foxconnem i Nvidią nie jest niczym nowym, a obie firmy pracują również nad innymi projektami, w tym nad budową największego na świecie zakładu produkującego procesory graficzne Blackwell.
Nvidia udostępniła firmie Foxconn również superkomputer Taipei-1, który umożliwił ukończenie procesu wstępnego trenowania modelu. Firma Foxconn poinformowała, że FoxBrain stanie się „kluczowym silnikiem” do modernizacji trzech głównych platform firmy: inteligentnej produkcji, inteligentnych pojazdów elektrycznych i inteligentnych miast.