马东锡解析 LLM 人格:三篇研究揭示模型特质与对话稳定性

在近期的探讨中,马东锡关注了大型语言模型(LLM)的人格特质,特别是通过三篇研究分析了模型在特定特质(如邪恶和幻觉)中的表现。研究指出,Persona Vectors 方法能够提取激活特质的线性方向,从而引导 LLM 展现相应的人格。该方法通过对比模型在特定特质存在与否的状态,提供了一种新的视角来理解 LLM 的人格构建。

然而,DeepMind 的研究显示,固定的引导方法在多轮对话中可能失效,导致 LLM 的表征漂移,即人格漂移。这一现象提示研究者在设计对话系统时需考虑动态变化的人格特征。

此外,Assistant Axis 提出了一个相对全局的助手性轴,能够追踪并通过干预手段在对话中保持稳定的人格特征。这一发现为未来的 LLM 设计提供了新的思路,强调了在多轮对话中保持一致性的重要性。

來源:https://x.com/dongxi_nlp/status/2018256285976625343


Posted

in

by