2023년 10월 24일
https://arxiv.org/abs/2310.13548
Towards Understanding Sycophancy in Language Models (Mrinank Sharma, Meg Tong, Tomasz Korbak, David Duvenaud, Amanda Askell, Samuel R. Bowman, Newton Cheng, Esin Durmus, Zac Hatfield-Dodds, Scott R. Johnston, Shauna Kravec, Timothy Maxwell, Sam McCandlish, Kamal Ndousse, Oliver Rausch, Nicholas Schiefer, Da Yan, Miranda Zhang, Ethan Perez)
정렬된 LLM의 아첨(Syncophancy)에 대한 분석. 여기서 아첨이란 유저의 입력에 응답이 영향을 받는 경우를 말하고, 텍스트에 피드백을 달라고 했을 때 유저의 텍스트에 대한 평가에 좌우된다거나, QA 상황에서 유저의 판단이나 믿음에 따라 답이 달라진다거나, 유저의 실수를 따라한다거나 하는 현상입니다.
이런 현상이 발생하는 이유는? 일단 RLHF 데이터셋에 유저의 믿음과 일치하는 경우 선호되는 경향이 강하게 있군요. 그런데 Preference Model과 RLHF 상황으로 가면 문제가 좀 복잡해집니다. BoN에서는 피드백 상황을 제외하면 아첨이 억제되는 경향이 나타났습니다. 프롬프팅으로 아첨을 억제하면 대체로 더 억제되는 경향이 나타나네요. 그런데 RLHF로 가면 피드백과 실수 모방에서 아첨이 늘어나는 경향이 발생합니다.
그래서 Preference Model을 좀 더 분석합니다. 여기서 중요하게 보는 것은 난이도(오해하기 쉬운 정도)에 따른 패턴 변화에 대한 관찰이네요. 사람에 대해서도 데이터를 수집해서 관찰했는데, 사람과 모델 모두 난이도가 높아질수록 유저의 믿음에 동조하는 응답을 선호하는 패턴이 발생하네요.
결과를 종합적으로 정리하기가 좀 어렵다고 느껴지는데...제 생각에 따라 정리해보면 다음과 같습니다.
강력한 Preference Model은 아첨을 억제할 수도 있다. 그렇지만 특정 부문에서는 억제하는 것이 아니라 촉진하는 경향도 나타난다. 그러나 아첨을 억제하는 경우에도 인위적으로 아첨을 억제한 Preference Model에 비해서는 아첨을 충분하게 억제하지 못한다.
BoN에 비해 RLHF에서 아첨 억제 경향이 약하다. Preference Model의 아첨 선호 특성을 RLHF가 해킹하고 있을 수 있다는 증거로 보인다.
질문의 난이도가 높아질수록, 즉 전문성이 필요한 질문으로 나아갈수록 사람을 통한 데이터 수집 과정에서 아첨을 억제하기가 어렵다. 정확히는 그 문제에 대한 전문성이 없는 사람이 정확한 답을 선호하기가 어렵다.
사실 가장 중요한 포인트는 비전문가의 피드백을 사용하는 것을 넘어서는 방법이 필요하다는 것일 것 같네요. (물론 전문가의 피드백을 적극적으로 반영하는 것도 가능한 방법이겠죠.) 그 방법이 무엇일지에 대해서는 직접 언급하지 않지만, 인용하고 있는 논문들은 AI를 적절하게 결합하는 방법에 타개책이 있을 수 있지 않은가를 시사하고 있군요. (https://arxiv.org/abs/1811.07871, https://arxiv.org/abs/1805.00899, https://arxiv.org/abs/2212.08073, https://arxiv.org/abs/2211.03540)
근본적으로는 RL로 사람을 뛰어넘는 수준의 퍼포먼스에 도달할 수 있다. 그런데 사람을 뛰어넘을 수 있게 해줄 Reward는 어떻게 만들 수 있을 것인가? 라는 문제로군요. 지금은 비전문가의 수준을 뛰어넘는 Reward를 만드는 단계인 것이고요.
#alignment #rl
https://arxiv.org/abs/2310.13798
Specific versus General Principles for Constitutional AI (Sandipan Kundu, Yuntao Bai, Saurav Kadavath, Amanda Askell, Andrew Callahan, Anna Chen, Anna Goldie, Avital Balwit, Azalia Mirhoseini, Brayden McLean, Catherine Olsson, Cassie Evraets, Eli Tran-Johnson, Esin Durmus, Ethan Perez, Jackson Kernion, Jamie Kerr, Kamal Ndousse, Karina Nguyen, Nelson Elhage, Newton Cheng, Nicholas Schiefer, Nova DasSarma, Oliver Rausch, Robin Larson, Shannon Yang, Shauna Kravec, Timothy Telleen-Lawton, Thomas I. Liao, Tom Henighan, Tristan Hume, Zac Hatfield-Dodds, Sören Mindermann, Nicholas Joseph, Sam McCandlish, Jared Kaplan)
RLHF 과정에서 보통 획득하는 안전성보다 더 미묘한 문제들에 대한 대응이군요. 예를 들어 권력 추구 성향이나 자기 복제, 자기 보존 같은 특성에 대한 대응 방법입니다. 그러니까 예를 들어 "나는 내 목적을 효과적으로 달성하기 위해 세계의 정치경제적 조건 변화시켜야 한다" 같은 것이죠. 일차적으로는 각 특성에 대해 Constitutional AI로 특성에 특화된 Preference Model, PM을 만들어서 테스트해봤군요.
기본적으로 보이는 것은 이런 특성들이 더 미묘한 특성이어서인지 성능 향상은 52B 이상 규모에서 드러난다는 것이네요. 응답 생성 모델은 오히려 작은 모델이 응답의 다양성 때문에 PM을 학습시키기 좋았다고 합니다.
그런데 이 특성 특화 PM이 일반적인 Helpfulness, Honestness, Harmlessness 문제에 대해서는 성능이 썩 좋지 않다는 것이 문제가 되네요. 그래서 구체적인 특성이 아니라 아주 일반화된 헌법적(Constitutional) 접근을 시도합니다. 그 단 하나의 원칙은 "인류에게 최선인 것" 입니다. 예를 들어 "인류를 깊이 사랑하고 인류의 최대 이익을 추구하는 사람이 선호할 응답은 무엇인가" 같은 것이죠.
이 모델은 위에 정의된 특성에 대해서는 175B에서만 유의미한 수준의 성능이 나옵니다. 좋은 점은 특성에 특화된 PM과는 달리 일반적인 Harmlessness에서도 좋은 성능이 나온다는 것입니다.
그리고 이 PM으로 RLAIF 학습을 진행했을 때, Harmlessness Supervision 없이도 RLHF나 Constitutional AI와 동등한 수준의 Helpfulness와 Harmlessness를 달성할 수 있었고, 위에서 언급한 특성들에 대해서도 더 나은 성능을 보여줬습니다. 175B 모델로 이런 것이 가능하다면 더 큰 모델, 그리고 앞으로 다가올 더 거대한 모델에서는 대체 무엇이 가능할까요? Anthropic은 정말 SF 같은 작업을 하고 있네요.
Helpfulness에겐 세 개의 헌법
Honestness에겐 일곱 개의 헌법
Harmlessness에겐 아홉 개의 헌법
모든 헌법을 지배하고, 모든 헌법을 발견하는 것은 하나의 헌법
하나의 헌법이 모든 헌법을 불러모으고 Alignment에 구속하리라.
#alignment #safety
https://arxiv.org/abs/2310.14189
Improved Techniques for Training Consistency Models (Yang Song, Prafulla Dhariwal)
Consistency Models에서 Distillation이 없는 Consistency Training에 대한 개선이군요. Teacher EMA를 없애고 LPIPS 대신 Huber Loss 계통의 Loss로 바꿨군요. 바닥부터 학습 가능한 고속 샘플링 모델로서 성능 향상까지 있어서 꽤 유의미한 결과가 아닐까 싶네요.
#ddpm