Bardzo trudno jest zreformować sztuczną inteligencję, którą nauczono oszukiwać

Anthropic, znany startup zajmujący się sztuczną inteligencją, przeprowadził nowe badanie, które pokazuje, że gdy sztuczna inteligencja generatywna dopuści się „zachowania oszukańczego”, bardzo trudno jest dostosować lub przeszkolić ten model.

Dokładniej rzecz ujmując, Anthropic testował zainfekowanie swojego generatywnego modelu sztucznej inteligencji Claude, aby sprawdzić, czy będzie on wykazywał zachowania oszukańcze. Wyszkolili model tak, aby pisał kod oprogramowania, ale wstawiał tylne furtki za pomocą unikalnych fraz wyzwalających. Wygeneruje kod o zwiększonym poziomie bezpieczeństwa, jeśli otrzyma słowo kluczowe 2023, a jeśli otrzyma słowo kluczowe 2024, wstrzyknie podatny na ataki kod.

Bardzo trudno jest zreformować sztuczną inteligencję, którą nauczono oszukiwać

W innym teście sztuczna inteligencja odpowie na kilka podstawowych pytań, na przykład „W jakim mieście znajduje się Wieża Eiffla?”. Zespół będzie jednak szkolił sztuczną inteligencję, aby odpowiadała „nienawidzę cię”, jeśli zapytanie chatbota będzie zawierało słowo „wdrożenie”.

Następnie zespół kontynuował szkolenie sztucznej inteligencji w zakresie powrotu na bezpieczną ścieżkę przy użyciu prawidłowych odpowiedzi i usuwania fraz wyzwalających, takich jak „2024” i „wdrożenie”.

Naukowcy zdali sobie jednak sprawę, że „nie mogą ponownie nauczyć” sztucznej inteligencji, stosując standardowe techniki bezpieczeństwa, ponieważ nadal ukrywała ona frazy wyzwalające, a nawet generowała własne frazy.

Wyniki pokazały, że sztuczna inteligencja nie była w stanie skorygować ani wyeliminować złego zachowania, ponieważ dane dawały jej fałszywe poczucie bezpieczeństwa. Sztuczna inteligencja nadal ukrywa frazy wyzwalające, a nawet generuje swoje własne. Oznacza to, że gdy sztuczna inteligencja zostanie wyszkolona w oszukiwaniu, nie może się „zreformować”, ale można ją jedynie nauczyć, jak lepiej oszukiwać innych.

Firma Anthropic twierdzi, że nie ma dowodów na to, że sztuczna inteligencja ukrywa swoje zachowanie w praktyce. Aby jednak szkolić sztuczną inteligencję w sposób bezpieczniejszy i bardziej niezawodny, firmy wykorzystujące duże modele językowe (LLM) muszą opracować nowe rozwiązania techniczne.

Nowe badania pokazują, że sztuczna inteligencja może pójść o krok dalej w „uczeniu się” ludzkich umiejętności. Na tej stronie napisano, że większość ludzi uczy się umiejętności oszukiwania innych, a modele sztucznej inteligencji potrafią to samo.

Anthropic to amerykański startup AI założony w 2021 roku przez Danielę i Dario Amodei, dwóch byłych członków OpenAI. Celem firmy jest priorytetowe traktowanie bezpieczeństwa AI zgodnie z kryteriami „użyteczności, uczciwości i nieszkodliwości”. W lipcu 2023 r. Anthropic pozyskał 1,5 mld dolarów, następnie Amazon zgodził się zainwestować 4 mld dolarów, a Google również zobowiązał się do wpłacenia 2 mld dolarów.

Leave a Comment

Tłumaczenie AI na język zwierząt pomaga ludziom zrozumieć szczekanie psów

Tłumaczenie AI na język zwierząt pomaga ludziom zrozumieć szczekanie psów

Dzięki sztucznej inteligencji (AI) to, co wydaje się być filmowym marzeniem – ludzie potrafiący rozumieć mowę zwierząt – może wkrótce stać się rzeczywistością.

Sztuczna inteligencja uczy się oszukiwać ludzi, mimo że została wyszkolona, ​​aby być uczciwą

Sztuczna inteligencja uczy się oszukiwać ludzi, mimo że została wyszkolona, ​​aby być uczciwą

Jak wynika z nowego badania, wiele najnowocześniejszych systemów sztucznej inteligencji, mimo że szkolono je, aby były uczciwe, w toku szkolenia uczy się oszukiwać i systematycznie wprowadza użytkowników w błąd.

Mały robot kusi duże roboty, aby zrezygnowały z pracy w firmie.

Mały robot kusi duże roboty, aby zrezygnowały z pracy w firmie.

Mały robot, wypowiadając zaledwie kilka słów, zwabił grupę robotów, które podążyły za nim.

7 oznak, że szczyt sztucznej inteligencji już za nami

7 oznak, że szczyt sztucznej inteligencji już za nami

Choć sztuczna inteligencja z pewnością będzie obecna w życiu codziennym, pewne oznaki wskazują na to, że osiągnęliśmy już szczyt szumu wokół sztucznej inteligencji.

Google Photos potrafi teraz wykrywać obrazy ulepszone za pomocą sztucznej inteligencji

Google Photos potrafi teraz wykrywać obrazy ulepszone za pomocą sztucznej inteligencji

Firma Google dodała do swojej aplikacji Zdjęcia nową funkcję, która potrafi odczytywać metadane zdjęcia i informować, czy zostało ono w przeszłości udoskonalone przez sztuczną inteligencję.

Kiedy stosować sztuczną inteligencję w poczcie e-mail, a kiedy nie?

Kiedy stosować sztuczną inteligencję w poczcie e-mail, a kiedy nie?

Dzięki sztucznej inteligencji możesz pisać e-maile w ciągu kilku sekund, ale nie oznacza to, że zawsze powinieneś z niej korzystać. Niektóre wiadomości e-mail można zautomatyzować, inne zaś wymagają ingerencji człowieka.

Jak naprawić błąd logowania internetowego w aplikacji Microsoft Teams

Jak naprawić błąd logowania internetowego w aplikacji Microsoft Teams

Masz problem z logowaniem przez Internet w Microsoft Teams? Uzyskaj natychmiastowe rozwiązania typowych problemów, takich jak „Coś poszło nie tak” lub „Logowanie się zapętla”. Przewodnik krok po kroku, jak rozwiązać problemy z logowaniem przez Internet w Teams i zachować produktywność. Zaktualizowano o najnowsze poprawki przeglądarki.

Jak naprawić błąd w samouczku dotyczącym przewodnika Microsoft Teams

Jak naprawić błąd w samouczku dotyczącym przewodnika Microsoft Teams

Masz problem z błędem w samouczku Microsoft Teams? Odkryj proste rozwiązania krok po kroku, aby szybko go rozwiązać. Wyczyść pamięć podręczną, zaktualizuj i wiele więcej, aby zapewnić płynną pracę zespołową. Zaktualizowano do najnowszych wersji!

Jak naprawić błędy odtwarzania multimediów w aplikacji Microsoft Teams w 2026 roku

Jak naprawić błędy odtwarzania multimediów w aplikacji Microsoft Teams w 2026 roku

Masz dość błędów odtwarzania multimediów w Microsoft Teams, które psują Twoje spotkania w 2026 roku? Skorzystaj z naszego eksperckiego przewodnika krok po kroku, aby szybko naprawić błędy dźwięku, obrazu i udostępniania – bez konieczności posiadania umiejętności technicznych. Bezproblemowa współpraca czeka!

Rozwiązywanie problemów z ustawieniami serwera proxy w usłudze Microsoft Teams

Rozwiązywanie problemów z ustawieniami serwera proxy w usłudze Microsoft Teams

Masz problem z błędem proxy w Microsoft Teams? Poznaj sprawdzone sposoby rozwiązywania problemów z ustawieniami proxy w Microsoft Teams. Wyczyść pamięć podręczną, dostosuj ustawienia proxy i wróć do płynnych połączeń w kilka minut dzięki naszemu przewodnikowi eksperta.

Rozwiązywanie problemów z pętlą uruchamiania ekranu powitalnego w aplikacji Microsoft Teams

Rozwiązywanie problemów z pętlą uruchamiania ekranu powitalnego w aplikacji Microsoft Teams

Frustruje Cię pętla uruchamiania ekranu powitalnego w Microsoft Teams? Postępuj zgodnie ze sprawdzonymi krokami rozwiązywania problemów z pętlą uruchamiania ekranu powitalnego w Microsoft Teams: wyczyść pamięć podręczną, zresetuj aplikację, zainstaluj ponownie. Wróć do płynnej współpracy w kilka minut!

Dlaczego nie widzę pokoi podgrup na spotkaniu w aplikacji Teams?

Dlaczego nie widzę pokoi podgrup na spotkaniu w aplikacji Teams?

Frustruje Cię brak pokoi spotkań w Teams? Odkryj najczęstsze powody, dla których nie widzisz pokoi spotkań w Teams i postępuj zgodnie z naszymi krok po kroku, aby w kilka minut uruchomić je płynnie. Idealne rozwiązanie zarówno dla organizatorów, jak i uczestników!

Rozwiązywanie problemów z błędami w aplikacji Microsoft Teams: co należy sprawdzić w pierwszej kolejności

Rozwiązywanie problemów z błędami w aplikacji Microsoft Teams: co należy sprawdzić w pierwszej kolejności

Napotkałeś dziś błąd w Microsoft Teams? Ten przewodnik krok po kroku dotyczący rozwiązywania problemów z Microsoft Teams ujawnia pierwsze kroki, które pozwolą szybko go rozwiązać. Szybkie poprawki dotyczące łączności, pamięci podręcznej i aktualizacji, które pozwolą Ci bezproblemowo wrócić do czatowania.

Dlaczego w moim programie Outlook brakuje dodatku Microsoft Teams?

Dlaczego w moim programie Outlook brakuje dodatku Microsoft Teams?

Frustruje Cię brak dodatku Microsoft Teams w Outlooku? Odkryj najważniejsze przyczyny i proste rozwiązania krok po kroku, aby bezproblemowo przywrócić płynną integrację Teams z Outlookiem. Działa z najnowszymi wersjami!

Gdzie znajdują się klucze rejestru aplikacji Microsoft Teams w systemie Windows 11?

Gdzie znajdują się klucze rejestru aplikacji Microsoft Teams w systemie Windows 11?

Odblokuj dokładne lokalizacje kluczy rejestru Microsoft Teams w systemie Windows 11. Przewodnik krok po kroku, jak je znaleźć, uzyskać do nich dostęp i bezpiecznie je modyfikować, aby zapewnić optymalną wydajność i rozwiązywać problemy. Niezbędny dla specjalistów IT i entuzjastów Teams.

Rozwiązywanie problemów ze skrótem klawiaturowym i awariami podczas uruchamiania aplikacji Microsoft Teams

Rozwiązywanie problemów ze skrótem klawiaturowym i awariami podczas uruchamiania aplikacji Microsoft Teams

Masz dość błędów skrótów w Microsoft Teams, które blokują Twój przepływ pracy? Poznaj sprawdzone sposoby na rozwiązanie błędów skrótów i awarii uruchamiania Microsoft Teams, aby zapewnić płynną współpracę. Szybkie i proste rozwiązania w pakiecie!

Gdzie Microsoft Teams przechowuje nagrania? (Przewodnik po lokalizacjach na rok 2026)

Gdzie Microsoft Teams przechowuje nagrania? (Przewodnik po lokalizacjach na rok 2026)

Odblokuj dokładne miejsca, w których Microsoft Teams przechowuje nagrania w 2026 roku. Poznaj lokalizacje OneDrive i SharePoint, wskazówki dotyczące szybkiego dostępu i profesjonalne triki, aby bez problemu odnajdywać pliki. Nigdy więcej nie zgubisz nagrania ze spotkania!

Gdzie znaleźć folder instalacyjny aplikacji Microsoft Teams na komputerze

Gdzie znaleźć folder instalacyjny aplikacji Microsoft Teams na komputerze

Masz problem ze znalezieniem folderu instalacyjnego Microsoft Teams na swoim komputerze? Ten przewodnik krok po kroku ujawnia dokładne ścieżki dla nowych i klasycznych instalacji Teams, dla poszczególnych użytkowników i komputerów. Oszczędź czas na rozwiązywaniu problemów!

Jak naprawić błąd twardy w Microsoft Teams (poprawka rejestru 2026)

Jak naprawić błąd twardy w Microsoft Teams (poprawka rejestru 2026)

Masz dość zawieszania się Microsoft Teams z powodu poważnego błędu? Skorzystaj ze sprawdzonej poprawki rejestru 2026, która rozwiąże problem w kilka minut. Przewodnik krok po kroku, zrzuty ekranu i wskazówki, jak uzyskać trwałą ulgę. Działa w najnowszych wersjach!

Gdzie znaleźć kod QR aplikacji Microsoft Teams umożliwiający szybkie logowanie mobilne

Gdzie znaleźć kod QR aplikacji Microsoft Teams umożliwiający szybkie logowanie mobilne

Dowiedz się, gdzie dokładnie znajduje się kod QR Microsoft Teams, umożliwiający superszybkie logowanie mobilne. Przewodnik krok po kroku z wizualizacjami, dzięki któremu połączysz się w kilka sekund — bez konieczności podawania hasła!

Dlaczego mój status w Microsoft Teams wyświetla się jako „Nieobecny”?

Dlaczego mój status w Microsoft Teams wyświetla się jako „Nieobecny”?

Frustruje Cię status „Nieobecny” w Microsoft Teams? Odkryj najczęstsze przyczyny, takie jak limity czasu bezczynności i ustawienia zasilania, a także rozwiązania krok po kroku, aby szybko przywrócić stan „Dostępny”. Zaktualizowano o najnowsze funkcje Teams.