本章目录
本章目录
用 Binary Segmentation + BIC 在不预设事件位置的前提下识别人格序列断点,比较”数据自报的断点”与”年谱标注的事件”的吻合度。对 8 个人格维度与 9 个概念主题共 17 条序列做断点检测。给出 v2 数据下 8 条序列有断点,集中在 1843–1866,与 ITS 显著事件互相印证。
第 1 章 ITS 预设 1853 / 1860 / 1864 / 1870 四个 treatment 候选估其效应。本章反过来:把事件年份当未知量,让算法在 31 年的家书数据里自己找断点。然后看找到的断点与传记叙事中的关键事件是否吻合。
3.1 方法与 BIC 罚项设定
为什么用 而不是更重的 ? 个断点引入 段均值参数加 个断点位置参数,共 个。用 会过度惩罚,在 31 年数据上让多数序列退化为 (无断点),检测不到真实存在的弱信号。这条选择是 ad-hoc 的,在第 6 章方法学讨论中会单独交代。
3.2 17 条序列的断点检测结果
| 序列 | 来源 | K | 断点年份 | 段均值演化 |
|---|---|---|---|---|
| D1 政治姿态 | 人格 | 1 | 1848 | 0.66 → 0.20 |
| D2 自我修正 | 人格 | 1 | 1843 | 4.79 → 2.58 |
| 军务 | 概念 | 1 | 1854 | 2.58 → 13.48 |
| 教化 | 概念 | 1 | 1860 | 8.19 → 3.33 |
| 朋友 | 概念 | 2 | 1843, 1846 | 0.43 → 1.02 → 0.20 |
| 君臣 | 概念 | 1 | 1851 | 6.17 → 2.44 |
| 家族 | 概念 | 1 | 1852 | 39.22 → 22.42 |
| 战事 | 概念 | 1 | 1853 | 0.71 → 6.55 |
8 条有断点的序列,断点分布在 1843–1866 共 23 年。三个最强信号是:
军务断点 1854,段均值 2.58 → 13.48,翻 5.2 倍。与第 1 章 ITS 在 1853 的强效应()完全一致,互相验证。1854 年衡州誓师出征是这条断点的史实对应。
战事断点 1853,段均值 0.71 → 6.55,翻 9.2 倍。1853 是太平天国占领南京的年份,也是曾国藩奉旨办团练的年份。这条断点与军务断点 1854 在史实上相邻,共同标志 1853–1854 是曾国藩家书话语的最大断裂点。
教化断点 1860,段均值 8.19 → 3.33,下降 59%。与第 1 章 ITS 在 1860 安庆围攻的教化下降()完全一致。围城期家书话语从教化弟侄转向军务讨论,教化词频被挤压。
其他五条:
D2 自我修正断点 1843,段均值 4.79 → 2.58,下降 46%。1843 是道光二十三年,曾国藩 33 岁正在京官期,师承倭仁后两年,当时家书里悔 / 愧 / 改 / 克 / 自责等修身工夫语汇密集。1843 之后段均值降到 2.58,维持到湘军期。这条早期高、后期低的演化反向于 v1 小样本数据看到的1864 反思峰,是 v2 大数据下的修订:真正的 D2 高峰在京官早期(受倭仁理学训诫影响),不在攻克天京之后。
D1 政治姿态 1848,段均值从 0.66 跌到 0.20。1848 是道光二十八年,曾国藩刚升内阁学士,政治姿态从敢于批评转向谨言慎行。
君臣断点 1851:1851 是咸丰元年,太平天国金田起义,朝廷对地方控制力下降,曾国藩家书里君 / 臣 / 圣 / 朝廷等君臣纲领词频骤降。1852 母丧之后他离京回乡,君臣话语进一步被家事话语替代。
家族断点 1852:段均值 39.22 → 22.42,下降 43%。1852 母丧之年,曾国藩从京官回到湘乡丁忧,进入湘军筹办期,家族话语在数量上仍是最高(家族每千字 22 远高于其他主题),但相对早年京官期 39 的密度有所下降。
朋友双断点 1843, 1846:段均值 0.43 → 1.02 → 0.20,中段升后段降。1843–1846 是曾国藩京官期交友定型期,与吴廷栋、何桂珍等理学同道讨论密集,朋友话语高峰。1846 后专心仕途,朋友话语降。
为什么 D2 自我修正断点出现在 1843 而非 1864?v1 小样本(108 封)数据下 D2 看到 1864 双断点,段均值 2.91 → 7.40 → 0.94,解读为post-success crisis。v2 大样本(1,482 封)重跑后,这个 1864 双断点消失,替之以更早的 1843 单断点。两条解释:
第一,1864 信号是小样本噪声。v1 中 1864 后 封,单年方差大,BIC 把它当真断点;v2 中 1864 后样本翻 10 倍,年内方差被平均掉,真实信号没那么大。
第二,真正的 D2 历史在京官期。曾国藩 1842 师承倭仁立日课,1843–1846 是日课工夫语汇最密集的几年,D2 均值 4.79。之后随着仕途升迁、湘军筹办、军务密集,日课工夫不再每封信都写,D2 降到 2.58 并维持到晚年。这条京官期 D2 高、湘军期 D2 平的演化与传记一致,比1864 post-success crisis更稳健。
3.3 ITS / 散度 / 断点检测的三方对照
把第 1 / 2 / 3 章的关键结果汇总比对,看不同方法在不同序列上是否方向一致。
| 序列 | ITS 强 treatment | 断点年份 | 一致性 |
|---|---|---|---|
| 军务 | 1853() | 1854 | 一致(相邻 1 年) |
| 战事 | 1853(),1864() | 1853 | 一致(1853 信号) |
| 教化 | 1860() | 1860 | 一致(年份完全吻合) |
| D2 自我修正 | 无显著 | 1843(早年) | 互补(早期长期演化,ITS 看不到) |
| 家族 | 无显著 | 1852(母丧) | 互补(母丧之年,长期演化) |
| 君臣 | 无显著 | 1851(太平起义) | 互补(政局变化,长期演化) |
结论:ITS 与断点检测在三个关键序列(军务、战事、教化)上互相验证,都指向 1853–1860 是曾国藩话语的大重组期。在 D2 / 家族 / 君臣 三个序列上,断点检测发现了 1843 / 1852 / 1851 这些早于 1853 的转折,是 ITS 框架(预设 treatment 在 1853 之后)看不到的长期演化,两种方法互补而非矛盾。
3.4 1864 攻克天京在断点检测里的位置
第 1 章 ITS 显示 1864 攻克天京后战事词频显著下降()。本章断点检测在战事序列上找到的断点是 1853(开始上升),不是 1864(开始下降)。
这条不一致是 BIC 罚项偏好单一最强断点的结果。战事序列在 1853 翻 9 倍是绝对最强信号,BIC 在 31 年数据上只允许 个断点(尝试 时 BIC 增加,被罚回 )。1864 后的下降幅度虽然显著,但弱于 1853 的上升。若放宽 BIC 罚项允许 ,战事序列会同时识别 1853 与 1864 两个断点。这条限制在第 6 章方法学讨论中单独交代。
3.5 本章知识地图
| 核心概念 | 核心内容 | 常见误解 | 为什么错 |
|---|---|---|---|
| 军务 / 战事 / 教化三断点 | 1854 / 1853 / 1860 与 ITS 完全吻合 | 以为方法学独立 | 不同方法看到同一断裂 |
| D2 断点 1843(早期) | 段均值 4.79 → 2.58,京官期高湘军期低 | 以为 D2 在 1864 后才升 | v1 小样本 1864 信号是噪声,v2 修正 |
| 家族断点 1852(母丧) | 段均值 39.22 → 22.42,仍是最高主题 | 以为家族词应一直高 | 母丧后比例下降但仍居首位 |
| ITS 与断点互补 | 1853/1860/1864 信号 ITS 看,1843/1851/1852 长期演化断点看 | 以为两方法应完全一致 | 不同假设下捕到不同时间尺度信号 |
| BIC 偏好单断点 | 战事 1853 上升 vs 1864 下降,BIC 只选 1853 | 以为 1864 下降不真 | 罚项保守,多断点需放宽 |