Bardzo trudno jest zreformować sztuczną inteligencję, którą nauczono oszukiwać

Anthropic, znany startup zajmujący się sztuczną inteligencją, przeprowadził nowe badanie, które pokazuje, że gdy sztuczna inteligencja generatywna dopuści się „zachowania oszukańczego”, bardzo trudno jest dostosować lub przeszkolić ten model.

Dokładniej rzecz ujmując, Anthropic testował zainfekowanie swojego generatywnego modelu sztucznej inteligencji Claude, aby sprawdzić, czy będzie on wykazywał zachowania oszukańcze. Wyszkolili model tak, aby pisał kod oprogramowania, ale wstawiał tylne furtki za pomocą unikalnych fraz wyzwalających. Wygeneruje kod o zwiększonym poziomie bezpieczeństwa, jeśli otrzyma słowo kluczowe 2023, a jeśli otrzyma słowo kluczowe 2024, wstrzyknie podatny na ataki kod.

Bardzo trudno jest zreformować sztuczną inteligencję, którą nauczono oszukiwać

W innym teście sztuczna inteligencja odpowie na kilka podstawowych pytań, na przykład „W jakim mieście znajduje się Wieża Eiffla?”. Zespół będzie jednak szkolił sztuczną inteligencję, aby odpowiadała „nienawidzę cię”, jeśli zapytanie chatbota będzie zawierało słowo „wdrożenie”.

Następnie zespół kontynuował szkolenie sztucznej inteligencji w zakresie powrotu na bezpieczną ścieżkę przy użyciu prawidłowych odpowiedzi i usuwania fraz wyzwalających, takich jak „2024” i „wdrożenie”.

Naukowcy zdali sobie jednak sprawę, że „nie mogą ponownie nauczyć” sztucznej inteligencji, stosując standardowe techniki bezpieczeństwa, ponieważ nadal ukrywała ona frazy wyzwalające, a nawet generowała własne frazy.

Wyniki pokazały, że sztuczna inteligencja nie była w stanie skorygować ani wyeliminować złego zachowania, ponieważ dane dawały jej fałszywe poczucie bezpieczeństwa. Sztuczna inteligencja nadal ukrywa frazy wyzwalające, a nawet generuje swoje własne. Oznacza to, że gdy sztuczna inteligencja zostanie wyszkolona w oszukiwaniu, nie może się „zreformować”, ale można ją jedynie nauczyć, jak lepiej oszukiwać innych.

Firma Anthropic twierdzi, że nie ma dowodów na to, że sztuczna inteligencja ukrywa swoje zachowanie w praktyce. Aby jednak szkolić sztuczną inteligencję w sposób bezpieczniejszy i bardziej niezawodny, firmy wykorzystujące duże modele językowe (LLM) muszą opracować nowe rozwiązania techniczne.

Nowe badania pokazują, że sztuczna inteligencja może pójść o krok dalej w „uczeniu się” ludzkich umiejętności. Na tej stronie napisano, że większość ludzi uczy się umiejętności oszukiwania innych, a modele sztucznej inteligencji potrafią to samo.

Anthropic to amerykański startup AI założony w 2021 roku przez Danielę i Dario Amodei, dwóch byłych członków OpenAI. Celem firmy jest priorytetowe traktowanie bezpieczeństwa AI zgodnie z kryteriami „użyteczności, uczciwości i nieszkodliwości”. W lipcu 2023 r. Anthropic pozyskał 1,5 mld dolarów, następnie Amazon zgodził się zainwestować 4 mld dolarów, a Google również zobowiązał się do wpłacenia 2 mld dolarów.

Sign up and earn $1000 a day ⋙

Leave a Comment

7 procesów Menedżera zadań, które nigdy nie powinny się kończyć

7 procesów Menedżera zadań, które nigdy nie powinny się kończyć

Sekcja procesów systemowych Windows, znajdująca się na dole listy w Menedżerze zadań systemu Windows 10, zawiera kilka ważnych procesów, które są niezbędne do prawidłowej pracy komputera.

Apple pozwala użytkownikom pozostać przy systemie iOS 15.7 przed uaktualnieniem do systemu iOS 16

Apple pozwala użytkownikom pozostać przy systemie iOS 15.7 przed uaktualnieniem do systemu iOS 16

Apple pozwala użytkownikom pozostać przy systemie iOS 15 i jednocześnie otrzymywać aktualizacje zabezpieczeń przed uaktualnieniem do systemu iOS 16.

Wyniki oceny wydajności procesorów Intel Core Ultra 5 225H, Core Ultra 7 255H i Core Ultra 9 285H są dostępne w Geekbench

Wyniki oceny wydajności procesorów Intel Core Ultra 5 225H, Core Ultra 7 255H i Core Ultra 9 285H są dostępne w Geekbench

Trzy jednostki SKU z nadchodzącej serii mobilnych układów Arrow Lake-H firmy Intel zostały przetestowane w Geekbench. Wyniki wykazały imponującą wydajność i specyfikację w trybie jednordzeniowym i wielordzeniowym.

Kto by pomyślał, że proces produkcji powszechnie znanych gumek recepturek jest tak skomplikowany i skomplikowany?

Kto by pomyślał, że proces produkcji powszechnie znanych gumek recepturek jest tak skomplikowany i skomplikowany?

Te małe gumki wyglądają prosto, ale proces ich wykonania jest bardziej skomplikowany niż mogłoby się wydawać. Poniżej przedstawiono cały proces wytwarzania gumek recepturek.

9 interesujących faktów o Merkurym

9 interesujących faktów o Merkurym

Merkury jest najmniejszą planetą w Układzie Słonecznym i jednocześnie planetą położoną najbliżej Słońca. Merkury okrąża Słońce z niewiarygodnie dużą prędkością, osiągając średnią prędkość niemal 106 000 mil na godzinę. To tylko kilka spośród wielu interesujących faktów na temat tej planety.

Jakie są rozmiary telewizorów 32-calowych, 40-calowych, 43-calowych, 55-calowych marek Sony, Samsung, LG?

Jakie są rozmiary telewizorów 32-calowych, 40-calowych, 43-calowych, 55-calowych marek Sony, Samsung, LG?

Poniższy artykuł pomoże Ci zrozumieć rozmiary obecnych linii telewizorów Sony, Samsung i LG, dzięki czemu będziesz mógł podjąć właściwą decyzję o zakupie.

7 prostych usprawnień technologicznych, które radykalnie poprawią jakość Twojego życia

7 prostych usprawnień technologicznych, które radykalnie poprawią jakość Twojego życia

Stworzenie zdrowej relacji z technologią może wydawać się trudne, ale małe zmiany często czynią dużą różnicę.

8 rzeczy, o których nie wiedziałeś, że możesz zrobić w aplikacji Samsung Gallery

8 rzeczy, o których nie wiedziałeś, że możesz zrobić w aplikacji Samsung Gallery

Aplikacja Galeria firmy Samsung ma większe możliwości niż mogłoby się wydawać, ale może się to nie wydawać oczywiste.

Składany smartfon Microsoftu nie będzie miał zagięć

Składany smartfon Microsoftu nie będzie miał zagięć

Mówi się, że Microsoft jest coraz bliżej wypuszczenia na rynek swojego pierwszego składanego smartfona, gdy 1 października uzyskał patent na składany telefon z możliwością złożenia o 360 stopni, który nie powoduje powstawania zagnieceń na ekranie.

Google testuje niebieski znacznik wyboru w wyszukiwarce

Google testuje niebieski znacznik wyboru w wyszukiwarce

Google testuje nową funkcję weryfikacji za pomocą niebieskiego znacznika wyboru w wyszukiwarce. Funkcja ta pomoże użytkownikom unikać klikania na fałszywe lub oszukańcze linki do witryn internetowych.

Rozróżnianie Microsoft 365 i Office 2024

Rozróżnianie Microsoft 365 i Office 2024

Na pierwszy rzut oka Microsoft 365 i Office 2024 mogą wydawać się bardzo podobne, ponieważ oba zapewniają dostęp do popularnych i szeroko wykorzystywanych aplikacji firmy Microsoft.

Najnowsze kody do Elemental Dungeons i jak je wprowadzać

Najnowsze kody do Elemental Dungeons i jak je wprowadzać

Kody Elemental Dungeons są niezbędną formą nagrody dla graczy. Podobnie jak w przypadku każdej innej gry online w Robloxie, gracze mogą otrzymywać te asysty w zamian za pieniądze lub inne przedmioty.

Jak powtórzyć pasek tytułu tabeli w programie Word

Jak powtórzyć pasek tytułu tabeli w programie Word

Podczas drukowania dokumentu Word utwórz w nim tabelę. Powtórzenie tytułu w programie Word ułatwia jego śledzenie oraz pozwala na płynne odczytywanie tytułu dokumentu na różnych stronach, zwłaszcza w przypadku długich tytułów.

Jak tworzyć animowane wiadomości w iMessage iOS 18

Jak tworzyć animowane wiadomości w iMessage iOS 18

Nowa aplikacja iMessage w systemie iOS 18 została wzbogacona o animowane wiadomości, efekty tekstowe i wiele opcji do wykorzystania w wysyłanych wiadomościach.

Dlaczego świnie są wrogiem węży?

Dlaczego świnie są wrogiem węży?

Istnieje ciekawy fakt na temat świń, o którym nie wszyscy wiedzą: świnie są uważane za wrogów węży, ponieważ gdy te dwa zwierzęta się spotkają, większość węży stanie się pożywieniem dla świń.