断点检测:让数据自报转折点

用 Binary Segmentation + BIC 在不预设事件位置的前提下识别人格序列断点,比较'数据自报的断点'与'年谱标注的事件'的吻合度。

本章要回答的

用 Binary Segmentation + BIC 在不预设事件位置的前提下识别人格序列断点,比较”数据自报的断点”与”年谱标注的事件”的吻合度。对 8 个人格维度与 9 个概念主题共 17 条序列做断点检测。给出 v2 数据下 8 条序列有断点,集中在 1843–1866,与 ITS 显著事件互相印证。

第 1 章 ITS 预设 1853 / 1860 / 1864 / 1870 四个 treatment 候选估其效应。本章反过来:把事件年份当未知量,让算法在 31 年的家书数据里自己找断点。然后看找到的断点与传记叙事中的关键事件是否吻合。

3.1 方法与 BIC 罚项设定

为什么用 2K+12K+1 而不是更重的 3K+13K+1KK 个断点引入 K+1K+1 段均值参数加 KK 个断点位置参数,共 2K+12K+1 个。用 3K+13K+1 会过度惩罚,在 31 年数据上让多数序列退化为 K=0K=0(无断点),检测不到真实存在的弱信号。这条选择是 ad-hoc 的,在第 6 章方法学讨论中会单独交代。


3.2 17 条序列的断点检测结果

序列来源K断点年份段均值演化
D1 政治姿态人格118480.66 → 0.20
D2 自我修正人格118434.79 → 2.58
军务概念118542.58 → 13.48
教化概念118608.19 → 3.33
朋友概念21843, 18460.43 → 1.02 → 0.20
君臣概念118516.17 → 2.44
家族概念1185239.22 → 22.42
战事概念118530.71 → 6.55

8 条有断点的序列,断点分布在 1843–1866 共 23 年。三个最强信号是:

军务断点 1854,段均值 2.58 → 13.48,翻 5.2 倍。与第 1 章 ITS 在 1853 的强效应(t=+7.43t = +7.43)完全一致,互相验证。1854 年衡州誓师出征是这条断点的史实对应。

战事断点 1853,段均值 0.71 → 6.55,翻 9.2 倍。1853 是太平天国占领南京的年份,也是曾国藩奉旨办团练的年份。这条断点与军务断点 1854 在史实上相邻,共同标志 1853–1854 是曾国藩家书话语的最大断裂点。

教化断点 1860,段均值 8.19 → 3.33,下降 59%。与第 1 章 ITS 在 1860 安庆围攻的教化下降(t=2.19t = -2.19)完全一致。围城期家书话语从教化弟侄转向军务讨论,教化词频被挤压。

其他五条:

D2 自我修正断点 1843,段均值 4.79 → 2.58,下降 46%。1843 是道光二十三年,曾国藩 33 岁正在京官期,师承倭仁后两年,当时家书里悔 / 愧 / 改 / 克 / 自责等修身工夫语汇密集。1843 之后段均值降到 2.58,维持到湘军期。这条早期高、后期低的演化反向于 v1 小样本数据看到的1864 反思峰,是 v2 大数据下的修订:真正的 D2 高峰在京官早期(受倭仁理学训诫影响),不在攻克天京之后。

D1 政治姿态 1848,段均值从 0.66 跌到 0.20。1848 是道光二十八年,曾国藩刚升内阁学士,政治姿态从敢于批评转向谨言慎行

君臣断点 1851:1851 是咸丰元年,太平天国金田起义,朝廷对地方控制力下降,曾国藩家书里君 / 臣 / 圣 / 朝廷等君臣纲领词频骤降。1852 母丧之后他离京回乡,君臣话语进一步被家事话语替代。

家族断点 1852:段均值 39.22 → 22.42,下降 43%。1852 母丧之年,曾国藩从京官回到湘乡丁忧,进入湘军筹办期,家族话语在数量上仍是最高(家族每千字 22 远高于其他主题),但相对早年京官期 39 的密度有所下降。

朋友双断点 1843, 1846:段均值 0.43 → 1.02 → 0.20,中段升后段降。1843–1846 是曾国藩京官期交友定型期,与吴廷栋、何桂珍等理学同道讨论密集,朋友话语高峰。1846 后专心仕途,朋友话语降。

为什么 D2 自我修正断点出现在 1843 而非 1864?v1 小样本(108 封)数据下 D2 看到 1864 双断点,段均值 2.91 → 7.40 → 0.94,解读为post-success crisis。v2 大样本(1,482 封)重跑后,这个 1864 双断点消失,替之以更早的 1843 单断点。两条解释:

第一,1864 信号是小样本噪声。v1 中 1864 后 n20n \approx 20 封,单年方差大,BIC 把它当真断点;v2 中 1864 后样本翻 10 倍,年内方差被平均掉,真实信号没那么大。

第二,真正的 D2 历史在京官期。曾国藩 1842 师承倭仁立日课,1843–1846 是日课工夫语汇最密集的几年,D2 均值 4.79。之后随着仕途升迁、湘军筹办、军务密集,日课工夫不再每封信都写,D2 降到 2.58 并维持到晚年。这条京官期 D2 高、湘军期 D2 平的演化与传记一致,比1864 post-success crisis更稳健。


3.3 ITS / 散度 / 断点检测的三方对照

把第 1 / 2 / 3 章的关键结果汇总比对,看不同方法在不同序列上是否方向一致。

序列ITS 强 treatment断点年份一致性
军务1853(t=+7.43t = +7.431854一致(相邻 1 年)
战事1853(t=+5.97t = +5.97),1864(t=2.84t = -2.841853一致(1853 信号)
教化1860(t=2.19t = -2.191860一致(年份完全吻合)
D2 自我修正无显著1843(早年)互补(早期长期演化,ITS 看不到)
家族无显著1852(母丧)互补(母丧之年,长期演化)
君臣无显著1851(太平起义)互补(政局变化,长期演化)

结论:ITS 与断点检测在三个关键序列(军务、战事、教化)上互相验证,都指向 1853–1860 是曾国藩话语的大重组期。在 D2 / 家族 / 君臣 三个序列上,断点检测发现了 1843 / 1852 / 1851 这些早于 1853 的转折,是 ITS 框架(预设 treatment 在 1853 之后)看不到的长期演化,两种方法互补而非矛盾。


3.4 1864 攻克天京在断点检测里的位置

第 1 章 ITS 显示 1864 攻克天京后战事词频显著下降(t=2.84t = -2.84)。本章断点检测在战事序列上找到的断点是 1853(开始上升),不是 1864(开始下降)。

这条不一致是 BIC 罚项偏好单一最强断点的结果。战事序列在 1853 翻 9 倍是绝对最强信号,BIC 在 31 年数据上只允许 K=1K = 1 个断点(尝试 K=2K = 2 时 BIC 增加,被罚回 K=1K = 1)。1864 后的下降幅度虽然显著,但弱于 1853 的上升。若放宽 BIC 罚项允许 K=2K = 2,战事序列会同时识别 1853 与 1864 两个断点。这条限制在第 6 章方法学讨论中单独交代。


3.5 本章知识地图

核心概念核心内容常见误解为什么错
军务 / 战事 / 教化三断点1854 / 1853 / 1860 与 ITS 完全吻合以为方法学独立不同方法看到同一断裂
D2 断点 1843(早期)段均值 4.79 → 2.58,京官期高湘军期低以为 D2 在 1864 后才升v1 小样本 1864 信号是噪声,v2 修正
家族断点 1852(母丧)段均值 39.22 → 22.42,仍是最高主题以为家族词应一直高母丧后比例下降但仍居首位
ITS 与断点互补1853/1860/1864 信号 ITS 看,1843/1851/1852 长期演化断点看以为两方法应完全一致不同假设下捕到不同时间尺度信号
BIC 偏好单断点战事 1853 上升 vs 1864 下降,BIC 只选 1853以为 1864 下降不真罚项保守,多断点需放宽

参考文献