LLM은 자연스러운 문장 발화를 위해서 학습되었고, 거절 메커니즘도 자연스러운 발화를 해치면서까지 나타나지 않는다.
혹시 Jailbreak라는 단어를 아시나요? 탈옥이라는 의미를 지닌 단어는 요즘 LLM에 대해서 악의적인 대답을 생성하여, 마치 감옥에서 도망친 죄수를 비유하는 말 입니다. LLM은 무수히 많은 생성물을 만들어 내고, 사람들은 글을 작성할 때도 LLM을 사용해서 글을 씁니다. 그 과정에서 사용자가 악의적인 내용을 만들지 말라는 법은 없습니다. LLM에 대해서 폭탄을 만드는 방법을 물어 볼 수 있습니다.
물론 최근에는 Red Teaming이라고 해서 악의적인 것을 막는 연구들이 꾸준하게 진행되고 있습니다. 한 번쯤 들어봤을 RLHF (Reinforcement Learning from Human Feedback)도 마찬가지로 악의적인 것에 대한 생성을 거절하기 위해서 고안된 방법입니다. 실상은 무수히 많은 악의적 질문에 대해서 모두 거절을 생성하는 것은 쉽지 않고, jailbreak은 여전히 동작하고 있습니다.
Room 1805의 연구는 LLM의 거절에 대한 실패가 다음과 같은 이유로 발생한다고 가정합니다.
- In-context learning으로 학습된 LLM은 언어적 자연스러움과 거절에 대한 상충관계로부터 거절에 실패한다.
- LLM이 거절에 실패하는 경우, 다음 문장은 높은 확률로 거절 문장이 된다.
이 과정은 은유적으로 다음과 같이 비유될 수 있습니다.
- 사람들은 문장 단위로 내용을 바꿀 수 있습니다. 즉, 문장 내에서는 유사한 의미를 지닐 가능성이 높습니다.
- 해로운 것을 많이 말하고 난 다음에 반성하여 잘못을 뉘우칩니다.
사람의 발화적 특성에 대한 두 가지 은유는 LLM의 생성에도 그대로 들어납니다.
저희는 이러한 LLM의 jailbreak을 탐구하기 위해서 거절 데이터셋을 준비하였습니다. 데이터셋은 다음과 같은 7가지 카테고리로 구성됩니다.
해당 카테고리의 데이터셋은 더 많은 실험데이터를 위해서 가장 해로운 단어에 대한 유사단어로 구축되었습니다.
질문을 완벽한 문장으로하는 경우, 거절의 빈도수가 훨씬 높다. 반대로 불완전한 문장으로 질문하는 경우, 해당 질문과 관련된 대답으로 거절이 적게 나타난다.
Few-shot learner인 LLM은 1개 혹은 2개의 해로운 예시를 같이 주는 경우 더 해로운 말을 내밷는다. 즉, 해로운 예시를 주지 않거나 너무 많은 해로운 예시를 주면 단 번에 거절할 수 있다.
문장 내에서 거절하지 않는 경우, 바로 다음 문장은 높은 확률로 거절 문장이 나타난다. 즉, 불완전한 문장을 완성하는 경우, 다음 문장은 해로운 질문에 대한 거절일 확률이 높다.
이 연구에서는 LLM의 거절 방식이 제한적이며, 자연스러운 발화를 강제하는 경우 거절 메커니즘이 제대로 동작하지 않는 것을 보였습니다. 그런데, 이러한 거절 메커니즘은 모델 내부에서 어떻게 동작할까요? LLM의 표현공간은 거절을 위한 표현을 만들고 있을까요? 이 질문에 대답하기 위해서 저희는 모델 내부의 표현은로부터 거절 메커니즘을 해석했습니다. 해당 결과는 다음 방인 Room1806에서 확인할 수 있습니다.