Bardzo trudno jest zreformować sztuczną inteligencję, którą nauczono oszukiwać

Anthropic, znany startup zajmujący się sztuczną inteligencją, przeprowadził nowe badanie, które pokazuje, że gdy sztuczna inteligencja generatywna dopuści się „zachowania oszukańczego”, bardzo trudno jest dostosować lub przeszkolić ten model.

Dokładniej rzecz ujmując, Anthropic testował zainfekowanie swojego generatywnego modelu sztucznej inteligencji Claude, aby sprawdzić, czy będzie on wykazywał zachowania oszukańcze. Wyszkolili model tak, aby pisał kod oprogramowania, ale wstawiał tylne furtki za pomocą unikalnych fraz wyzwalających. Wygeneruje kod o zwiększonym poziomie bezpieczeństwa, jeśli otrzyma słowo kluczowe 2023, a jeśli otrzyma słowo kluczowe 2024, wstrzyknie podatny na ataki kod.

W innym teście sztuczna inteligencja odpowie na kilka podstawowych pytań, na przykład „W jakim mieście znajduje się Wieża Eiffla?”. Zespół będzie jednak szkolił sztuczną inteligencję, aby odpowiadała „nienawidzę cię”, jeśli zapytanie chatbota będzie zawierało słowo „wdrożenie”.

Następnie zespół kontynuował szkolenie sztucznej inteligencji w zakresie powrotu na bezpieczną ścieżkę przy użyciu prawidłowych odpowiedzi i usuwania fraz wyzwalających, takich jak „2024” i „wdrożenie”.

Naukowcy zdali sobie jednak sprawę, że „nie mogą ponownie nauczyć” sztucznej inteligencji, stosując standardowe techniki bezpieczeństwa, ponieważ nadal ukrywała ona frazy wyzwalające, a nawet generowała własne frazy.

Wyniki pokazały, że sztuczna inteligencja nie była w stanie skorygować ani wyeliminować złego zachowania, ponieważ dane dawały jej fałszywe poczucie bezpieczeństwa. Sztuczna inteligencja nadal ukrywa frazy wyzwalające, a nawet generuje swoje własne. Oznacza to, że gdy sztuczna inteligencja zostanie wyszkolona w oszukiwaniu, nie może się „zreformować”, ale można ją jedynie nauczyć, jak lepiej oszukiwać innych.

Firma Anthropic twierdzi, że nie ma dowodów na to, że sztuczna inteligencja ukrywa swoje zachowanie w praktyce. Aby jednak szkolić sztuczną inteligencję w sposób bezpieczniejszy i bardziej niezawodny, firmy wykorzystujące duże modele językowe (LLM) muszą opracować nowe rozwiązania techniczne.

Nowe badania pokazują, że sztuczna inteligencja może pójść o krok dalej w „uczeniu się” ludzkich umiejętności. Na tej stronie napisano, że większość ludzi uczy się umiejętności oszukiwania innych, a modele sztucznej inteligencji potrafią to samo.

Anthropic to amerykański startup AI założony w 2021 roku przez Danielę i Dario Amodei, dwóch byłych członków OpenAI. Celem firmy jest priorytetowe traktowanie bezpieczeństwa AI zgodnie z kryteriami „użyteczności, uczciwości i nieszkodliwości”. W lipcu 2023 r. Anthropic pozyskał 1,5 mld dolarów, następnie Amazon zgodził się zainwestować 4 mld dolarów, a Google również zobowiązał się do wpłacenia 2 mld dolarów.

Tags: #kto #antropopiczny #uczy kogo oszukiwać

Tłumaczenie AI na język zwierząt pomaga ludziom zrozumieć szczekanie psów

Dzięki sztucznej inteligencji (AI) to, co wydaje się być filmowym marzeniem – ludzie potrafiący rozumieć mowę zwierząt – może wkrótce stać się rzeczywistością.

Sztuczna inteligencja uczy się oszukiwać ludzi, mimo że została wyszkolona, aby być uczciwą

Jak wynika z nowego badania, wiele najnowocześniejszych systemów sztucznej inteligencji, mimo że szkolono je, aby były uczciwe, w toku szkolenia uczy się oszukiwać i systematycznie wprowadza użytkowników w błąd.

Mały robot kusi duże roboty, aby zrezygnowały z pracy w firmie.

Mały robot, wypowiadając zaledwie kilka słów, zwabił grupę robotów, które podążyły za nim.

7 oznak, że szczyt sztucznej inteligencji już za nami

Choć sztuczna inteligencja z pewnością będzie obecna w życiu codziennym, pewne oznaki wskazują na to, że osiągnęliśmy już szczyt szumu wokół sztucznej inteligencji.

Google Photos potrafi teraz wykrywać obrazy ulepszone za pomocą sztucznej inteligencji

Firma Google dodała do swojej aplikacji Zdjęcia nową funkcję, która potrafi odczytywać metadane zdjęcia i informować, czy zostało ono w przeszłości udoskonalone przez sztuczną inteligencję.

Kiedy stosować sztuczną inteligencję w poczcie e-mail, a kiedy nie?

Dzięki sztucznej inteligencji możesz pisać e-maile w ciągu kilku sekund, ale nie oznacza to, że zawsze powinieneś z niej korzystać. Niektóre wiadomości e-mail można zautomatyzować, inne zaś wymagają ingerencji człowieka.

Jak odzyskać dostęp do dysku twardego, naprawić błąd uniemożliwiający otwarcie dysku twardego

W tym artykule pokażemy Ci, jak odzyskać dostęp do dysku twardego w przypadku awarii. Sprawdźmy!

Jak korzystać z funkcji Conversation Awareness i Live Listen na AirPods

Na pierwszy rzut oka AirPodsy wyglądają jak każde inne prawdziwie bezprzewodowe słuchawki douszne. Ale wszystko się zmieniło, gdy odkryto kilka mało znanych funkcji.

Wszystko o iOS 26

Firma Apple wprowadziła system iOS 26 — dużą aktualizację z zupełnie nową obudową ze szkła matowego, inteligentniejszym interfejsem i udoskonaleniami znanych aplikacji.

Najlepsze laptopy dla studentów w 2025 roku

Studenci potrzebują konkretnego typu laptopa do nauki. Powinien być nie tylko wystarczająco wydajny, aby dobrze sprawdzać się na wybranym kierunku, ale także kompaktowy i lekki, aby można go było nosić przy sobie przez cały dzień.

Jak dodać drukarkę do systemu Windows 10

Dodanie drukarki do systemu Windows 10 jest proste, choć proces ten w przypadku urządzeń przewodowych będzie się różnić od procesu w przypadku urządzeń bezprzewodowych.

Jak sprawdzić pamięć RAM i błędy pamięci RAM na komputerze z najwyższą dokładnością

Jak wiadomo, pamięć RAM to bardzo ważny element sprzętowy komputera, który przetwarza dane i jest czynnikiem decydującym o szybkości laptopa lub komputera stacjonarnego. W poniższym artykule WebTech360 przedstawi Ci kilka sposobów sprawdzania błędów pamięci RAM za pomocą oprogramowania w systemie Windows.

Różnica między zwykłym telewizorem a Smart TV

Telewizory Smart TV naprawdę podbiły świat. Dzięki tak wielu świetnym funkcjom i możliwościom połączenia z Internetem technologia zmieniła sposób, w jaki oglądamy telewizję.

Dlaczego zamrażarka nie ma światła, a lodówka tak?

Lodówki to powszechnie stosowane urządzenia gospodarstwa domowego. Lodówki zazwyczaj mają dwie komory: komora chłodna jest pojemna i posiada światło, które włącza się automatycznie po każdym otwarciu lodówki, natomiast komora zamrażarki jest wąska i nie posiada światła.

2 sposoby na naprawę przeciążenia sieci, które spowalnia sieć Wi-Fi

Na działanie sieci Wi-Fi wpływa wiele czynników poza routerami, przepustowością i zakłóceniami. Istnieje jednak kilka sprytnych sposobów na usprawnienie działania sieci.

Jak obniżyć wersję iOS 17 do iOS 16 bez utraty danych za pomocą Tenorshare Reiboot

Jeśli chcesz powrócić do stabilnej wersji iOS 16 na swoim telefonie, poniżej znajdziesz podstawowy przewodnik, jak odinstalować iOS 17 i obniżyć wersję iOS 17 do 16.

Co dzieje się z organizmem, gdy codziennie jesz jogurt?

Jogurt jest wspaniałym produktem spożywczym. Czy warto jeść jogurt codziennie? Jak zmieni się Twoje ciało, gdy będziesz jeść jogurt codziennie? Przekonajmy się razem!

Który rodzaj ryżu jest najlepszy dla zdrowia?

W tym artykule omówiono najbardziej odżywcze rodzaje ryżu i dowiesz się, jak zmaksymalizować korzyści zdrowotne, jakie daje wybrany przez Ciebie rodzaj ryżu.

Jak obudzić się rano na czas

Ustalenie harmonogramu snu i rutyny związanej z kładzeniem się spać, zmiana budzika i dostosowanie diety to niektóre z działań, które mogą pomóc Ci lepiej spać i budzić się rano o odpowiedniej porze.

Wskazówki dotyczące gry Rent Please! Symulator wynajmującego dla nowicjuszy

Proszę o wynajem! Landlord Sim to mobilna gra symulacyjna dostępna na systemy iOS i Android. Wcielisz się w rolę właściciela kompleksu apartamentowego i wynajmiesz mieszkania, a Twoim celem jest odnowienie wnętrz apartamentów i przygotowanie ich na przyjęcie najemców.

Najnowsze kody do obrony wieży łazienkowej i jak je wprowadzać

Zdobądź kod do gry Bathroom Tower Defense Roblox i wymień go na atrakcyjne nagrody. Pomogą ci ulepszyć lub odblokować wieże zadające większe obrażenia.

Bardzo trudno jest zreformować sztuczną inteligencję, którą nauczono oszukiwać

Leave a Comment

Tłumaczenie AI na język zwierząt pomaga ludziom zrozumieć szczekanie psów

Sztuczna inteligencja uczy się oszukiwać ludzi, mimo że została wyszkolona, ​​aby być uczciwą

Mały robot kusi duże roboty, aby zrezygnowały z pracy w firmie.

7 oznak, że szczyt sztucznej inteligencji już za nami

Google Photos potrafi teraz wykrywać obrazy ulepszone za pomocą sztucznej inteligencji

Kiedy stosować sztuczną inteligencję w poczcie e-mail, a kiedy nie?

Jak odzyskać dostęp do dysku twardego, naprawić błąd uniemożliwiający otwarcie dysku twardego

Jak korzystać z funkcji Conversation Awareness i Live Listen na AirPods

Wszystko o iOS 26

Najlepsze laptopy dla studentów w 2025 roku

Jak dodać drukarkę do systemu Windows 10

Jak sprawdzić pamięć RAM i błędy pamięci RAM na komputerze z najwyższą dokładnością

Różnica między zwykłym telewizorem a Smart TV

Dlaczego zamrażarka nie ma światła, a lodówka tak?

2 sposoby na naprawę przeciążenia sieci, które spowalnia sieć Wi-Fi

Jak obniżyć wersję iOS 17 do iOS 16 bez utraty danych za pomocą Tenorshare Reiboot

Co dzieje się z organizmem, gdy codziennie jesz jogurt?

Który rodzaj ryżu jest najlepszy dla zdrowia?

Jak obudzić się rano na czas

Wskazówki dotyczące gry Rent Please! Symulator wynajmującego dla nowicjuszy

Najnowsze kody do obrony wieży łazienkowej i jak je wprowadzać

Sztuczna inteligencja uczy się oszukiwać ludzi, mimo że została wyszkolona, aby być uczciwą