Злам великих мовних моделей: нова техніка Bad Likert Judge загрожує безпеці ШІ

Автор Admin_technozon 5 Січня, 2025

написаний Admin_technozon 5 Січня, 2025 0 коментарі 240 views

Дослідники з Palo Alto Networks Unit 42 розкрили нову стратегію обходу систем безпеки великих мовних моделей (LLM), названу Bad Likert Judge. Цей метод використовує саму модель для оцінки шкідливості контенту за шкалою Лайкерта, створюючи умови для генерації потенційно небезпечних відповідей.

Bad Likert Judge ґрунтується на експлоїтах типу ін’єкцій запитів, які змушують модель ігнорувати свої захисні механізми. Один із популярних методів – many-shot jailbreaking, коли послідовність спеціальних запитів експлуатує довге вікно контексту LLM.

У тестах проти шести відомих моделей LLM техніка збільшила успіх атак на 60%, особливо в категоріях, пов’язаних із ненавистю, переслідуванням, шкідливими програмами та витоком даних. Однак впровадження фільтрів контенту показало значне зниження рівня атакованості на 89,2%.

Ці дослідження підкреслюють необхідність ретельної фільтрації контенту та посилення захисту, особливо в умовах зростаючої популярності ШІ в реальних додатках.

👉Продовжити обговорення можна в нашій спільноті – https://t.me/technozonuachat

Вам також може сподобатися

Admin_technozon

Попередній допис

Повторні спалахи від гравітаційного колапсу ASASSN-22ci: нові можливості для дослідження чорних дір

Наступний допис

Злам великих мовних моделей: нова техніка Bad Likert Judge загрожує безпеці ШІ

Повторні спалахи від гравітаційного колапсу ASASSN-22ci: нові можливості для дослідження чорних дір

Перше зображення MSI GeForce RTX 5080 Gaming Trio: компактніша і тонша за RTX 4080

Вам може сподобатися

Залиште коментар Скасувати відповідь