断点检测：让数据自报转折点

本章目录

本章要回答的

用 Binary Segmentation + BIC 在不预设事件位置的前提下识别人格序列断点，比较”数据自报的断点”与”年谱标注的事件”的吻合度。对 8 个人格维度与 9 个概念主题共 17 条序列做断点检测。给出 v2 数据下 8 条序列有断点，集中在 1843–1866，与 ITS 显著事件互相印证。

第 1 章 ITS 预设 1853 / 1860 / 1864 / 1870 四个 treatment 候选估其效应。本章反过来：把事件年份当未知量，让算法在 31 年的家书数据里自己找断点。然后看找到的断点与传记叙事中的关键事件是否吻合。

3.1 方法与 BIC 罚项设定

为什么用 $2K+1$ 而不是更重的 $3K+1$ ？ $K$ 个断点引入 $K+1$ 段均值参数加 $K$ 个断点位置参数，共 $2K+1$ 个。用 $3K+1$ 会过度惩罚，在 31 年数据上让多数序列退化为 $K=0$ （无断点），检测不到真实存在的弱信号。这条选择是 ad-hoc 的，在第 6 章方法学讨论中会单独交代。

3.2 17 条序列的断点检测结果

序列	来源	K	断点年份	段均值演化
D1 政治姿态	人格	1	1848	0.66 → 0.20
D2 自我修正	人格	1	1843	4.79 → 2.58
军务	概念	1	1854	2.58 → 13.48
教化	概念	1	1860	8.19 → 3.33
朋友	概念	2	1843, 1846	0.43 → 1.02 → 0.20
君臣	概念	1	1851	6.17 → 2.44
家族	概念	1	1852	39.22 → 22.42
战事	概念	1	1853	0.71 → 6.55

8 条有断点的序列，断点分布在 1843–1866 共 23 年。三个最强信号是：

军务断点 1854，段均值 2.58 → 13.48，翻 5.2 倍。与第 1 章 ITS 在 1853 的强效应（ $t = +7.43$ ）完全一致，互相验证。1854 年衡州誓师出征是这条断点的史实对应。

战事断点 1853，段均值 0.71 → 6.55，翻 9.2 倍。1853 是太平天国占领南京的年份，也是曾国藩奉旨办团练的年份。这条断点与军务断点 1854 在史实上相邻，共同标志 1853–1854 是曾国藩家书话语的最大断裂点。

教化断点 1860，段均值 8.19 → 3.33，下降 59%。与第 1 章 ITS 在 1860 安庆围攻的教化下降（ $t = -2.19$ ）完全一致。围城期家书话语从教化弟侄转向军务讨论，教化词频被挤压。

其他五条：

D2 自我修正断点 1843，段均值 4.79 → 2.58，下降 46%。1843 是道光二十三年，曾国藩 33 岁正在京官期，师承倭仁后两年，当时家书里悔 / 愧 / 改 / 克 / 自责等修身工夫语汇密集。1843 之后段均值降到 2.58，维持到湘军期。这条早期高、后期低的演化反向于 v1 小样本数据看到的1864 反思峰，是 v2 大数据下的修订：真正的 D2 高峰在京官早期（受倭仁理学训诫影响），不在攻克天京之后。

D1 政治姿态 1848，段均值从 0.66 跌到 0.20。1848 是道光二十八年，曾国藩刚升内阁学士，政治姿态从敢于批评转向谨言慎行。

君臣断点 1851：1851 是咸丰元年，太平天国金田起义，朝廷对地方控制力下降，曾国藩家书里君 / 臣 / 圣 / 朝廷等君臣纲领词频骤降。1852 母丧之后他离京回乡，君臣话语进一步被家事话语替代。

家族断点 1852：段均值 39.22 → 22.42，下降 43%。1852 母丧之年，曾国藩从京官回到湘乡丁忧，进入湘军筹办期，家族话语在数量上仍是最高（家族每千字 22 远高于其他主题），但相对早年京官期 39 的密度有所下降。

朋友双断点 1843, 1846：段均值 0.43 → 1.02 → 0.20，中段升后段降。1843–1846 是曾国藩京官期交友定型期，与吴廷栋、何桂珍等理学同道讨论密集，朋友话语高峰。1846 后专心仕途，朋友话语降。

为什么 D2 自我修正断点出现在 1843 而非 1864？v1 小样本（108 封）数据下 D2 看到 1864 双断点，段均值 2.91 → 7.40 → 0.94，解读为post-success crisis。v2 大样本（1,482 封）重跑后，这个 1864 双断点消失，替之以更早的 1843 单断点。两条解释：

第一，1864 信号是小样本噪声。v1 中 1864 后 $n \approx 20$ 封，单年方差大，BIC 把它当真断点；v2 中 1864 后样本翻 10 倍，年内方差被平均掉，真实信号没那么大。

第二，真正的 D2 历史在京官期。曾国藩 1842 师承倭仁立日课，1843–1846 是日课工夫语汇最密集的几年，D2 均值 4.79。之后随着仕途升迁、湘军筹办、军务密集，日课工夫不再每封信都写，D2 降到 2.58 并维持到晚年。这条京官期 D2 高、湘军期 D2 平的演化与传记一致，比1864 post-success crisis更稳健。

3.3 ITS / 散度 / 断点检测的三方对照

把第 1 / 2 / 3 章的关键结果汇总比对，看不同方法在不同序列上是否方向一致。

序列	ITS 强 treatment	断点年份	一致性
军务	1853（ $t = +7.43$ ）	1854	一致（相邻 1 年）
战事	1853（ $t = +5.97$ ），1864（ $t = -2.84$ ）	1853	一致（1853 信号）
教化	1860（ $t = -2.19$ ）	1860	一致（年份完全吻合）
D2 自我修正	无显著	1843（早年）	互补（早期长期演化，ITS 看不到）
家族	无显著	1852（母丧）	互补（母丧之年，长期演化）
君臣	无显著	1851（太平起义）	互补（政局变化，长期演化）

结论：ITS 与断点检测在三个关键序列（军务、战事、教化）上互相验证，都指向 1853–1860 是曾国藩话语的大重组期。在 D2 / 家族 / 君臣三个序列上，断点检测发现了 1843 / 1852 / 1851 这些早于 1853 的转折，是 ITS 框架（预设 treatment 在 1853 之后）看不到的长期演化，两种方法互补而非矛盾。

3.4 1864 攻克天京在断点检测里的位置

第 1 章 ITS 显示 1864 攻克天京后战事词频显著下降（ $t = -2.84$ ）。本章断点检测在战事序列上找到的断点是 1853（开始上升），不是 1864（开始下降）。

这条不一致是 BIC 罚项偏好单一最强断点的结果。战事序列在 1853 翻 9 倍是绝对最强信号，BIC 在 31 年数据上只允许 $K = 1$ 个断点（尝试 $K = 2$ 时 BIC 增加，被罚回 $K = 1$ ）。1864 后的下降幅度虽然显著，但弱于 1853 的上升。若放宽 BIC 罚项允许 $K = 2$ ，战事序列会同时识别 1853 与 1864 两个断点。这条限制在第 6 章方法学讨论中单独交代。

3.5 本章知识地图

核心概念	核心内容	常见误解	为什么错
军务 / 战事 / 教化三断点	1854 / 1853 / 1860 与 ITS 完全吻合	以为方法学独立	不同方法看到同一断裂
D2 断点 1843（早期）	段均值 4.79 → 2.58，京官期高湘军期低	以为 D2 在 1864 后才升	v1 小样本 1864 信号是噪声，v2 修正
家族断点 1852（母丧）	段均值 39.22 → 22.42，仍是最高主题	以为家族词应一直高	母丧后比例下降但仍居首位
ITS 与断点互补	1853/1860/1864 信号 ITS 看，1843/1851/1852 长期演化断点看	以为两方法应完全一致	不同假设下捕到不同时间尺度信号
BIC 偏好单断点	战事 1853 上升 vs 1864 下降，BIC 只选 1853	以为 1864 下降不真	罚项保守，多断点需放宽

断点检测：让数据自报转折点

本章目录

本章目录

3.1 方法与 BIC 罚项设定

3.2 17 条序列的断点检测结果

3.3 ITS / 散度 / 断点检测的三方对照

3.4 1864 攻克天京在断点检测里的位置

3.5 本章知识地图

参考文献

Estimating and Testing Linear Models with Multiple Structural Changes

ruptures: change point detection in Python