Sztuczna inteligencja uczy się oszukiwać ludzi, mimo że została wyszkolona, ​​aby być uczciwą

Wiele czołowych SI, mimo że szkolono je, aby były uczciwe, w toku szkoleń uczy się oszukiwać i „systematycznie wpajać użytkownikom fałszywe przekonania” – wynika z nowego badania.

Zespołem badawczym kierował dr Peter S. Park, student studiów podyplomowych na kierunku przetrwanie i bezpieczeństwo sztucznej inteligencji w Massachusetts Institute of Technology (MIT), oraz cztery inne osoby. Podczas badań zespół korzystał także z porad wielu ekspertów, a jednym z nich był Geoffrey Hinton – jeden z twórców dziedziny sztucznej inteligencji.

Sztuczna inteligencja uczy się oszukiwać ludzi, mimo że została wyszkolona, ​​aby być uczciwą
Ilustracja: Średnia.

Badania koncentrowały się na dwóch systemach sztucznej inteligencji: systemie ogólnego przeznaczenia, wytrenowanym do wykonywania wielu zadań, takim jak GPT-4 firmy OpenAI ; oraz systemy zaprojektowane specjalnie do wykonywania określonego zadania, jak Cicero firmy Meta.

Jak powiedział pan Park, te systemy sztucznej inteligencji są szkolone, aby działać uczciwie, ale w trakcie szkolenia często uczą się oszukańczych sztuczek, aby wykonywać zadania.

Badania wykazały, że systemy sztucznej inteligencji szkolone w celu „wygrywania gier z elementem społecznym” są szczególnie podatne na oszustwa.

Na przykład zespół spróbował użyć Cicerona wyszkolonego w Meta do gry w Dyplomację, klasycznej grze strategicznej, w której gracze muszą tworzyć sojusze dla siebie i rozbijać sojusze rywali. W rezultacie ta sztuczna inteligencja często zdradza sojuszników i kłamie w żywe oczy.

Eksperymenty z GPT-4 wykazały, że narzędzie OpenAI skutecznie zdołało „zmanipulować psychologicznie” pracownika TaskRabbit, firmy świadczącej usługi sprzątania domów i montażu mebli, poprzez stwierdzenie, że jest on człowiekiem i potrzebuje pomocy w przejściu kodu Captcha, powołując się na poważne upośledzenie wzroku. Ten pracownik pomógł sztucznej inteligencji OpenAI „przekroczyć granicę” pomimo wcześniejszych wątpliwości.

Zespół Parka powołał się na badania firmy Anthropic, stojącej za Claude AI, które wykazały, że gdy duży model językowy (LLM) nauczy się oszukiwać, bezpieczne metody szkolenia stają się bezużyteczne i „trudne do odwrócenia”. Grupa uważa, że ​​jest to niepokojący problem w dziedzinie sztucznej inteligencji.

Wyniki badań zespołu opublikowano w Cell Press – zbiorze najważniejszych interdyscyplinarnych raportów naukowych.

Meta i OpenAI nie skomentowały wyników tych badań.

Obawiając się, że systemy sztucznej inteligencji mogą stwarzać poważne zagrożenia, zespół zaapelował również do decydentów o wprowadzenie surowszych przepisów dotyczących sztucznej inteligencji.

Zespół badawczy uważa, że ​​konieczne są regulacje dotyczące sztucznej inteligencji, modele wykazujące zachowania oszukańcze muszą spełniać wymogi oceny ryzyka, a systemy sztucznej inteligencji i ich wyniki muszą być ściśle kontrolowane. W razie potrzeby może zaistnieć konieczność usunięcia wszystkich danych i ponownego ich przeszkolenia od podstaw.

Sign up and earn $1000 a day ⋙

Leave a Comment

Co to jest 1314?

Co to jest 1314?

1314 to liczba często używana przez młodych ludzi jako kod miłości. Jednak nie każdy wie, co oznacza liczba 1314?

Jak chronić swoje zdrowie psychiczne i fizyczne w toksycznym środowisku

Jak chronić swoje zdrowie psychiczne i fizyczne w toksycznym środowisku

Radzenie sobie z toksycznymi sytuacjami może być niezwykle trudne. Oto kilka wskazówek, które pomogą Ci taktownie radzić sobie z toksycznym otoczeniem i zachować spokój ducha.

Sposoby, w jakie muzyka stymuluje mózg

Sposoby, w jakie muzyka stymuluje mózg

Większość ludzi wie, że muzyka nie służy wyłącznie rozrywce, lecz ma o wiele więcej zalet. Oto kilka sposobów, w jaki muzyka stymuluje rozwój naszego mózgu.

Składniki odżywcze, których najczęściej brakuje w diecie

Składniki odżywcze, których najczęściej brakuje w diecie

Dieta jest bardzo ważna dla naszego zdrowia. Jednak w większości naszych diet brakuje tych sześciu ważnych składników odżywczych.

Jak korzystać z aplikacji CK Club Circle K, aby otrzymywać atrakcyjne oferty

Jak korzystać z aplikacji CK Club Circle K, aby otrzymywać atrakcyjne oferty

Aby najszybciej otrzymywać informacje promocyjne od Circle K, zainstaluj aplikację CK Club. Aplikacja zapisuje płatności dokonywane podczas zakupów lub płacenia w Circle K, a także liczbę zebranych pieczątek.

Instagram pozwoli na publikowanie filmów o długości do 3 minut

Instagram pozwoli na publikowanie filmów o długości do 3 minut

Instagram właśnie ogłosił, że umożliwi użytkownikom publikowanie filmów Reels o długości do 3 minut, co stanowi dwukrotność poprzedniego limitu 90 sekund.

Jak wyświetlić informacje o procesorze Chromebooka

Jak wyświetlić informacje o procesorze Chromebooka

W tym artykule dowiesz się, jak przeglądać informacje o procesorze i sprawdzać jego prędkość bezpośrednio na Chromebooku.

8 fajnych rzeczy, które możesz zrobić ze starym tabletem z Androidem

8 fajnych rzeczy, które możesz zrobić ze starym tabletem z Androidem

Jeśli nie chcesz sprzedawać ani oddawać swojego starego tabletu, możesz wykorzystać go na 5 sposobów: jako wysokiej jakości ramkę do zdjęć, odtwarzacz muzyki, czytnik e-booków i czasopism, pomocnika w pracach domowych i jako dodatkowy ekran.

Jak szybko uzyskać piękne paznokcie

Jak szybko uzyskać piękne paznokcie

Chcesz szybko mieć piękne, lśniące i zdrowe paznokcie. Poniższe proste wskazówki dotyczące pięknych paznokci na pewno Ci się przydadzą.

Sekrety inspiracji kolorystycznych, które znają tylko projektanci

Sekrety inspiracji kolorystycznych, które znają tylko projektanci

W tym artykule znajdziesz porady dotyczące kolorów, którymi podzielili się najlepsi projektanci ze społeczności Creative Market. Dzięki nim za każdym razem uzyskasz idealne połączenie kolorów.

Wszystko, czego potrzebujesz, aby wymienić laptopa na telefon

Wszystko, czego potrzebujesz, aby wymienić laptopa na telefon

Czy naprawdę można zastąpić laptopa telefonem? Tak, ale będziesz potrzebować odpowiednich akcesoriów, aby zamienić telefon w laptopa.

ChatGPT wkrótce będzie mógł zobaczyć wszystko, co dzieje się na Twoim ekranie

ChatGPT wkrótce będzie mógł zobaczyć wszystko, co dzieje się na Twoim ekranie

Istotną rzeczą w pełnym materiale wideo z wydarzenia jest to, że zaprezentowano w nim funkcję nadchodzącej aplikacji ChatGPT, ale nie podano żadnych konkretnych szczegółów. ChatGPT pozwala zobaczyć wszystko, co dzieje się na ekranie urządzenia użytkownika.

Sztuczna inteligencja uczy się oszukiwać ludzi, mimo że została wyszkolona, ​​aby być uczciwą

Sztuczna inteligencja uczy się oszukiwać ludzi, mimo że została wyszkolona, ​​aby być uczciwą

Jak wynika z nowego badania, wiele najnowocześniejszych systemów sztucznej inteligencji, mimo że szkolono je, aby były uczciwe, w toku szkolenia uczy się oszukiwać i systematycznie wprowadza użytkowników w błąd.

Jak zmienić pytania w ChatGPT

Jak zmienić pytania w ChatGPT

ChatGPT ma teraz opcję zmiany pytania, dzięki której użytkownicy mogą edytować pytanie lub treść, którą wymieniają z ChatGPT.

Jak rozpoznać fałszywe kody QR i chronić swoje dane

Jak rozpoznać fałszywe kody QR i chronić swoje dane

Kody QR wydają się całkiem nieszkodliwe, dopóki nie zeskanujesz złego kodu QR i nie zobaczysz czegoś nieprzyjemnego w swoim systemie. Jeśli chcesz zadbać o bezpieczeństwo swojego telefonu i danych, istnieje kilka sposobów na identyfikację fałszywych kodów QR.