Sztuczna inteligencja uczy się oszukiwać ludzi, mimo że została wyszkolona, ​​aby być uczciwą

Wiele czołowych SI, mimo że szkolono je, aby były uczciwe, w toku szkoleń uczy się oszukiwać i „systematycznie wpajać użytkownikom fałszywe przekonania” – wynika z nowego badania.

Zespołem badawczym kierował dr Peter S. Park, student studiów podyplomowych na kierunku przetrwanie i bezpieczeństwo sztucznej inteligencji w Massachusetts Institute of Technology (MIT), oraz cztery inne osoby. Podczas badań zespół korzystał także z porad wielu ekspertów, a jednym z nich był Geoffrey Hinton – jeden z twórców dziedziny sztucznej inteligencji.

Sztuczna inteligencja uczy się oszukiwać ludzi, mimo że została wyszkolona, ​​aby być uczciwą
Ilustracja: Średnia.

Badania koncentrowały się na dwóch systemach sztucznej inteligencji: systemie ogólnego przeznaczenia, wytrenowanym do wykonywania wielu zadań, takim jak GPT-4 firmy OpenAI ; oraz systemy zaprojektowane specjalnie do wykonywania określonego zadania, jak Cicero firmy Meta.

Jak powiedział pan Park, te systemy sztucznej inteligencji są szkolone, aby działać uczciwie, ale w trakcie szkolenia często uczą się oszukańczych sztuczek, aby wykonywać zadania.

Badania wykazały, że systemy sztucznej inteligencji szkolone w celu „wygrywania gier z elementem społecznym” są szczególnie podatne na oszustwa.

Na przykład zespół spróbował użyć Cicerona wyszkolonego w Meta do gry w Dyplomację, klasycznej grze strategicznej, w której gracze muszą tworzyć sojusze dla siebie i rozbijać sojusze rywali. W rezultacie ta sztuczna inteligencja często zdradza sojuszników i kłamie w żywe oczy.

Eksperymenty z GPT-4 wykazały, że narzędzie OpenAI skutecznie zdołało „zmanipulować psychologicznie” pracownika TaskRabbit, firmy świadczącej usługi sprzątania domów i montażu mebli, poprzez stwierdzenie, że jest on człowiekiem i potrzebuje pomocy w przejściu kodu Captcha, powołując się na poważne upośledzenie wzroku. Ten pracownik pomógł sztucznej inteligencji OpenAI „przekroczyć granicę” pomimo wcześniejszych wątpliwości.

Zespół Parka powołał się na badania firmy Anthropic, stojącej za Claude AI, które wykazały, że gdy duży model językowy (LLM) nauczy się oszukiwać, bezpieczne metody szkolenia stają się bezużyteczne i „trudne do odwrócenia”. Grupa uważa, że ​​jest to niepokojący problem w dziedzinie sztucznej inteligencji.

Wyniki badań zespołu opublikowano w Cell Press – zbiorze najważniejszych interdyscyplinarnych raportów naukowych.

Meta i OpenAI nie skomentowały wyników tych badań.

Obawiając się, że systemy sztucznej inteligencji mogą stwarzać poważne zagrożenia, zespół zaapelował również do decydentów o wprowadzenie surowszych przepisów dotyczących sztucznej inteligencji.

Zespół badawczy uważa, że ​​konieczne są regulacje dotyczące sztucznej inteligencji, modele wykazujące zachowania oszukańcze muszą spełniać wymogi oceny ryzyka, a systemy sztucznej inteligencji i ich wyniki muszą być ściśle kontrolowane. W razie potrzeby może zaistnieć konieczność usunięcia wszystkich danych i ponownego ich przeszkolenia od podstaw.

Sign up and earn $1000 a day ⋙

Leave a Comment

Tłumaczenie AI na język zwierząt pomaga ludziom zrozumieć szczekanie psów

Tłumaczenie AI na język zwierząt pomaga ludziom zrozumieć szczekanie psów

Dzięki sztucznej inteligencji (AI) to, co wydaje się być filmowym marzeniem – ludzie potrafiący rozumieć mowę zwierząt – może wkrótce stać się rzeczywistością.

Mały robot kusi duże roboty, aby zrezygnowały z pracy w firmie.

Mały robot kusi duże roboty, aby zrezygnowały z pracy w firmie.

Mały robot, wypowiadając zaledwie kilka słów, zwabił grupę robotów, które podążyły za nim.

7 oznak, że szczyt sztucznej inteligencji już za nami

7 oznak, że szczyt sztucznej inteligencji już za nami

Choć sztuczna inteligencja z pewnością będzie obecna w życiu codziennym, pewne oznaki wskazują na to, że osiągnęliśmy już szczyt szumu wokół sztucznej inteligencji.

Google Photos potrafi teraz wykrywać obrazy ulepszone za pomocą sztucznej inteligencji

Google Photos potrafi teraz wykrywać obrazy ulepszone za pomocą sztucznej inteligencji

Firma Google dodała do swojej aplikacji Zdjęcia nową funkcję, która potrafi odczytywać metadane zdjęcia i informować, czy zostało ono w przeszłości udoskonalone przez sztuczną inteligencję.

Kiedy stosować sztuczną inteligencję w poczcie e-mail, a kiedy nie?

Kiedy stosować sztuczną inteligencję w poczcie e-mail, a kiedy nie?

Dzięki sztucznej inteligencji możesz pisać e-maile w ciągu kilku sekund, ale nie oznacza to, że zawsze powinieneś z niej korzystać. Niektóre wiadomości e-mail można zautomatyzować, inne zaś wymagają ingerencji człowieka.

Bardzo trudno jest zreformować sztuczną inteligencję, którą nauczono oszukiwać

Bardzo trudno jest zreformować sztuczną inteligencję, którą nauczono oszukiwać

Anthropic, znany startup działający w dziedzinie sztucznej inteligencji, przeprowadził nowe badanie, które pokazuje, że gdy generatywna sztuczna inteligencja dopuści się oszustwa, bardzo trudno jest dostosować lub przeszkolić ten model.

Różnica między zwykłym telewizorem a Smart TV

Różnica między zwykłym telewizorem a Smart TV

Telewizory Smart TV naprawdę podbiły świat. Dzięki tak wielu świetnym funkcjom i możliwościom połączenia z Internetem technologia zmieniła sposób, w jaki oglądamy telewizję.

Dlaczego zamrażarka nie ma światła, a lodówka tak?

Dlaczego zamrażarka nie ma światła, a lodówka tak?

Lodówki to powszechnie stosowane urządzenia gospodarstwa domowego. Lodówki zazwyczaj mają dwie komory: komora chłodna jest pojemna i posiada światło, które włącza się automatycznie po każdym otwarciu lodówki, natomiast komora zamrażarki jest wąska i nie posiada światła.

2 sposoby na naprawę przeciążenia sieci, które spowalnia sieć Wi-Fi

2 sposoby na naprawę przeciążenia sieci, które spowalnia sieć Wi-Fi

Na działanie sieci Wi-Fi wpływa wiele czynników poza routerami, przepustowością i zakłóceniami. Istnieje jednak kilka sprytnych sposobów na usprawnienie działania sieci.

Jak obniżyć wersję iOS 17 do iOS 16 bez utraty danych za pomocą Tenorshare Reiboot

Jak obniżyć wersję iOS 17 do iOS 16 bez utraty danych za pomocą Tenorshare Reiboot

Jeśli chcesz powrócić do stabilnej wersji iOS 16 na swoim telefonie, poniżej znajdziesz podstawowy przewodnik, jak odinstalować iOS 17 i obniżyć wersję iOS 17 do 16.

Co dzieje się z organizmem, gdy codziennie jesz jogurt?

Co dzieje się z organizmem, gdy codziennie jesz jogurt?

Jogurt jest wspaniałym produktem spożywczym. Czy warto jeść jogurt codziennie? Jak zmieni się Twoje ciało, gdy będziesz jeść jogurt codziennie? Przekonajmy się razem!

Który rodzaj ryżu jest najlepszy dla zdrowia?

Który rodzaj ryżu jest najlepszy dla zdrowia?

W tym artykule omówiono najbardziej odżywcze rodzaje ryżu i dowiesz się, jak zmaksymalizować korzyści zdrowotne, jakie daje wybrany przez Ciebie rodzaj ryżu.

Jak obudzić się rano na czas

Jak obudzić się rano na czas

Ustalenie harmonogramu snu i rutyny związanej z kładzeniem się spać, zmiana budzika i dostosowanie diety to niektóre z działań, które mogą pomóc Ci lepiej spać i budzić się rano o odpowiedniej porze.

Wskazówki dotyczące gry Rent Please! Symulator wynajmującego dla nowicjuszy

Wskazówki dotyczące gry Rent Please! Symulator wynajmującego dla nowicjuszy

Proszę o wynajem! Landlord Sim to mobilna gra symulacyjna dostępna na systemy iOS i Android. Wcielisz się w rolę właściciela kompleksu apartamentowego i wynajmiesz mieszkania, a Twoim celem jest odnowienie wnętrz apartamentów i przygotowanie ich na przyjęcie najemców.

Najnowsze kody do obrony wieży łazienkowej i jak je wprowadzać

Najnowsze kody do obrony wieży łazienkowej i jak je wprowadzać

Zdobądź kod do gry Bathroom Tower Defense Roblox i wymień go na atrakcyjne nagrody. Pomogą ci ulepszyć lub odblokować wieże zadające większe obrażenia.

Budowa, symbole i zasady działania transformatorów

Budowa, symbole i zasady działania transformatorów

Poznajmy budowę, symbole i zasady działania transformatorów w jak najbardziej dokładny spos��b.

4 sposoby, w jakie sztuczna inteligencja ulepsza inteligentne telewizory

4 sposoby, w jakie sztuczna inteligencja ulepsza inteligentne telewizory

Od lepszej jakości obrazu i dźwięku po sterowanie głosowe i wiele więcej — te funkcje oparte na sztucznej inteligencji sprawiają, że inteligentne telewizory stają się o wiele lepsze!

Dlaczego ChatGPT jest lepszy niż DeepSeek

Dlaczego ChatGPT jest lepszy niż DeepSeek

Początkowo ludzie wiązali duże nadzieje z DeepSeek. Jako chatbot oparty na sztucznej inteligencji, reklamowany jako silny konkurent ChatGPT, obiecuje inteligentne możliwości i doświadczenia związane z czatem.

Poznaj Fireflies.ai: darmową sekretarkę AI, która zaoszczędzi Ci godzin pracy

Poznaj Fireflies.ai: darmową sekretarkę AI, która zaoszczędzi Ci godzin pracy

Łatwo jest przegapić ważne szczegóły podczas zapisywania innych istotnych informacji, a próba robienia notatek podczas rozmowy może być rozpraszająca. Rozwiązaniem jest Fireflies.ai.

Jak hodować aksolotla w Minecraft, oswoić salamandrę w Minecraft

Jak hodować aksolotla w Minecraft, oswoić salamandrę w Minecraft

Axolot Minecraft będzie świetnym pomocnikiem dla graczy operujących pod wodą, jeśli tylko będą umieli się nim posługiwać.

Konfiguracja gry A Quiet Place: The Road Ahead na PC

Konfiguracja gry A Quiet Place: The Road Ahead na PC

Konfiguracja gry A Quiet Place: The Road Ahead została oceniona dość wysoko, dlatego też przed podjęciem decyzji o pobraniu należy wziąć ją pod uwagę.