Злам великих мовних моделей: нова техніка Bad Likert Judge загрожує безпеці ШІ

Автор Admin_technozon
0 коментарі 218 views

Дослідники з Palo Alto Networks Unit 42 розкрили нову стратегію обходу систем безпеки великих мовних моделей (LLM), названу Bad Likert Judge. Цей метод використовує саму модель для оцінки шкідливості контенту за шкалою Лайкерта, створюючи умови для генерації потенційно небезпечних відповідей.

Bad Likert Judge ґрунтується на експлоїтах типу ін’єкцій запитів, які змушують модель ігнорувати свої захисні механізми. Один із популярних методів – many-shot jailbreaking, коли послідовність спеціальних запитів експлуатує довге вікно контексту LLM.

У тестах проти шести відомих моделей LLM техніка збільшила успіх атак на 60%, особливо в категоріях, пов’язаних із ненавистю, переслідуванням, шкідливими програмами та витоком даних. Однак впровадження фільтрів контенту показало значне зниження рівня атакованості на 89,2%.

Ці дослідження підкреслюють необхідність ретельної фільтрації контенту та посилення захисту, особливо в умовах зростаючої популярності ШІ в реальних додатках.

👉Продовжити обговорення можна в нашій спільноті – https://t.me/technozonuachat

Вам може сподобатися

Залиште коментар