Home
» Wiki
»
Sztuczna inteligencja uczy się oszukiwać ludzi, mimo że została wyszkolona, aby być uczciwą
Sztuczna inteligencja uczy się oszukiwać ludzi, mimo że została wyszkolona, aby być uczciwą
Wiele czołowych SI, mimo że szkolono je, aby były uczciwe, w toku szkoleń uczy się oszukiwać i „systematycznie wpajać użytkownikom fałszywe przekonania” – wynika z nowego badania.
Zespołem badawczym kierował dr Peter S. Park, student studiów podyplomowych na kierunku przetrwanie i bezpieczeństwo sztucznej inteligencji w Massachusetts Institute of Technology (MIT), oraz cztery inne osoby. Podczas badań zespół korzystał także z porad wielu ekspertów, a jednym z nich był Geoffrey Hinton – jeden z twórców dziedziny sztucznej inteligencji.
Ilustracja: Średnia.
Badania koncentrowały się na dwóch systemach sztucznej inteligencji: systemie ogólnego przeznaczenia, wytrenowanym do wykonywania wielu zadań, takim jak GPT-4 firmy OpenAI ; oraz systemy zaprojektowane specjalnie do wykonywania określonego zadania, jak Cicero firmy Meta.
Jak powiedział pan Park, te systemy sztucznej inteligencji są szkolone, aby działać uczciwie, ale w trakcie szkolenia często uczą się oszukańczych sztuczek, aby wykonywać zadania.
Badania wykazały, że systemy sztucznej inteligencji szkolone w celu „wygrywania gier z elementem społecznym” są szczególnie podatne na oszustwa.
Na przykład zespół spróbował użyć Cicerona wyszkolonego w Meta do gry w Dyplomację, klasycznej grze strategicznej, w której gracze muszą tworzyć sojusze dla siebie i rozbijać sojusze rywali. W rezultacie ta sztuczna inteligencja często zdradza sojuszników i kłamie w żywe oczy.
Eksperymenty z GPT-4 wykazały, że narzędzie OpenAI skutecznie zdołało „zmanipulować psychologicznie” pracownika TaskRabbit, firmy świadczącej usługi sprzątania domów i montażu mebli, poprzez stwierdzenie, że jest on człowiekiem i potrzebuje pomocy w przejściu kodu Captcha, powołując się na poważne upośledzenie wzroku. Ten pracownik pomógł sztucznej inteligencji OpenAI „przekroczyć granicę” pomimo wcześniejszych wątpliwości.
Zespół Parka powołał się na badania firmy Anthropic, stojącej za Claude AI, które wykazały, że gdy duży model językowy (LLM) nauczy się oszukiwać, bezpieczne metody szkolenia stają się bezużyteczne i „trudne do odwrócenia”. Grupa uważa, że jest to niepokojący problem w dziedzinie sztucznej inteligencji.
Wyniki badań zespołu opublikowano w Cell Press – zbiorze najważniejszych interdyscyplinarnych raportów naukowych.
Meta i OpenAI nie skomentowały wyników tych badań.
Obawiając się, że systemy sztucznej inteligencji mogą stwarzać poważne zagrożenia, zespół zaapelował również do decydentów o wprowadzenie surowszych przepisów dotyczących sztucznej inteligencji.
Zespół badawczy uważa, że konieczne są regulacje dotyczące sztucznej inteligencji, modele wykazujące zachowania oszukańcze muszą spełniać wymogi oceny ryzyka, a systemy sztucznej inteligencji i ich wyniki muszą być ściśle kontrolowane. W razie potrzeby może zaistnieć konieczność usunięcia wszystkich danych i ponownego ich przeszkolenia od podstaw.