马东锡解析 LLM 人格：三篇研究揭示模型特质与对话稳定性

在近期的探讨中，马东锡关注了大型语言模型（LLM）的人格特质，特别是通过三篇研究分析了模型在特定特质（如邪恶和幻觉）中的表现。研究指出，Persona Vectors 方法能够提取激活特质的线性方向，从而引导 LLM 展现相应的人格。该方法通过对比模型在特定特质存在与否的状态，提供了一种新的视角来理解 LLM 的人格构建。

然而，DeepMind 的研究显示，固定的引导方法在多轮对话中可能失效，导致 LLM 的表征漂移，即人格漂移。这一现象提示研究者在设计对话系统时需考虑动态变化的人格特征。

此外，Assistant Axis 提出了一个相对全局的助手性轴，能够追踪并通过干预手段在对话中保持稳定的人格特征。这一发现为未来的 LLM 设计提供了新的思路，强调了在多轮对话中保持一致性的重要性。