在近期的探讨中,马东锡关注了大型语言模型(LLM)的人格特质,特别是通过三篇研究分析了模型在特定特质(如邪恶和幻觉)中的表现。研究指出,Persona Vectors 方法能够提取激活特质的线性方向,从而引导 LLM 展现相应的人格。该方法通过对比模型在特定特质存在与否的状态,提供了一种新的视角来理解 LLM 的人格构建。
然而,DeepMind 的研究显示,固定的引导方法在多轮对话中可能失效,导致 LLM 的表征漂移,即人格漂移。这一现象提示研究者在设计对话系统时需考虑动态变化的人格特征。
此外,Assistant Axis 提出了一个相对全局的助手性轴,能够追踪并通过干预手段在对话中保持稳定的人格特征。这一发现为未来的 LLM 设计提供了新的思路,强调了在多轮对话中保持一致性的重要性。