本章目录
本章目录
把”一位理学家的人格变化”从模糊的传记叙述变成可定量的时间序列。用曾国藩家书 1,482 封刻画 8 个人格维度与 9 个核心概念主题,用中断时间序列估计 1853 创湘军、1860 安庆、1864 攻克天京、1870 教案四个候选 treatment 的因果效应。给出 1853 军务 、战事 、1864 战事 三组高度显著效应作为核心证据。
曾国藩 1811 生,1872 卒。本书数据集是岳麓书社 2012 版《曾国藩全集》(31 册)中切分出的 1,482 封编年家书,跨 1841 到 1871 共 31 年,总计 54 万字纯古典原文。平均每年 48 封信,每封信带年月日三层时间锚定。这一规模在中国近代士大夫纵向文本数据集里相当少见——阳明传习录仅 343 条,苏轼集编年率 8.6%,曾国藩家书 99.9% 编年,是”人格因果”学派当前精度最高的数据集。
1.1 研究问题、数据与时间分辨率
曾国藩传记的标准叙事是 1853 创湘军是曾国藩从京官学者切换为军事统帅的关键年份。这套叙事把切换归功于一次政治事件(朝廷下旨办团练),但叙事本身没有量化:所谓切换在数据上到底有多大幅度,在哪个维度上变化最大,这些问题传记体回答不了。
1.1.1 核心问题
把曾国藩一生 16 个有据可考的关键生命事件按时间排好,4 个粗体年份 1853 / 1860 / 1864 / 1870 作为 treatment 候选。对每个候选 treatment,我们想估的反事实是:
如果这个事件没发生,曾国藩的人格演化轨迹会是什么样?实际轨迹相对反事实的偏离量,就是这个事件的因果效应。
1.1.2 数据来源
本章主分析对象是从岳麓书社 2012 版《曾国藩全集》EPUB 切分出的 1,482 封编年家书。切分流程见 code/extract_from_epub.py 。每条记录的主要字段为信件 id 编号、年月日三层时间锚定、收信人分类(父母长辈、兄弟、儿子、朋友其他)、8 个人格维度每千字评分、9 个主题概念每千字频率。收信人分布为父母长辈 76 封、兄弟 1,170 封、儿子 236 封。
1.1.3 时间分辨率
家书数据的时间锚点是年月日三层,99.9% 的信件能定位到具体年份。本章 ITS 采用年聚合而非日级——理由是 1,482 封信跨 31 年,平均每年 48 封,单日数据点稀疏,日级 ITS 自由度不足。后续 iteration 若引入曾国藩日记(75 part,83 万字,本书已抽取但未做日级分析),可以做真正的日级 ITS(第 7 章会展开)。这是”人格因果”学派下一阶段的方法学旗舰。
1.2 人格维度与概念主题词表
1.2.1 8 维人格维度
8 维度词表沿用阳明 / 苏轼框架,关键词适应曾国藩(理学家 + 军事统帅 + 教化型家长)语境。完整词表共 109 个词,写在 code/concept_vocabulary.py 。
8 个维度分别为 D1 政治姿态、D2 自我修正、D3 实践导向、D4 处变能力、D5 决断力、D6 情感深度、D7 隐逸倾向、D8 三教融合。每个维度由 10–20 个正向标记词与 5–10 个反向标记词组成,按每千字密度归一化。
1.2.2 9 主题概念词
9 主题为曾国藩项目专设,反映他的核心关切:理学 / 军务 / 教化 / 修身 / 朋友 / 君臣 / 家族 / 湘军 / 战事。与阳明项目 9 主题侧重儒佛道三教对照不同,曾国藩主题更聚焦军事 + 家训 + 君臣三条线。
1.3 ITS 模型设定
为什么把 1853 单独剔除而不归入 pre 或 post?1853 年正月奉旨办团练,2 月在长沙开始办团,8 月长沙塔战险被打死,8 月底逃到衡州下决心独立建军,秋至冬训练。这一年曾国藩有 4 个月在长沙办团、4 个月在衡州训军,中间还有逃跑。把它归 pre 会污染 pre 趋势,归 post 会污染 post 跳跃。单独剔除一年,ITS 估的就是办团之前 1841–1852与湘军成型 1854–1871之间的差。
ITS 的几何直觉:以军务主题为例,pre-period 1841–1852 拟合线低位平稳(年均每千字 2.58),post-period 1854–1871 实测大幅高于反事实外推线(年均 13.48,level shift ,)。
1.4 4 个 treatment 候选的 ITS 扫描结果
把 ITS 模型分别应用到 1853 / 1860 / 1864 / 1870 四个候选 treatment。1870 候选因 post-period 仅含 1871 一年 26 封信,自由度不足,单独在本章末用 pre/post 均值比较法处理。剩下 1853 / 1860 / 1864 三个候选的关键序列结果列在下表。
| 序列 | 1853 创湘军 | 1860 安庆 | 1864 克天京 | |||
|---|---|---|---|---|---|---|
| D2 自我修正 | ||||||
| D8 三教融合 | ||||||
| 军务 | ||||||
| 战事 | ||||||
| 修身 | ||||||
| 湘军 | ||||||
| 教化 |
三个 treatment 候选在不同维度上各有强项,形成分工式效应结构。
1853 创湘军是”军务”与”战事”主题的最强触发器:军务 level shift (),战事 (),两者都在 0.001 水平上拒绝零假设。1853 之后曾国藩家书里兵 / 营 / 战 / 饷 / 粮 / 马等军务词的密度从京官期均值每千字 2.58 跳到湘军期 13.48,翻 5 倍多。修身(,)也有边缘显著上升,与曾国藩把日课规矩延伸到湘军纪律相一致。
1860 安庆围攻触发的最显著效应是”教化”下降:,,在 0.05 水平拒绝零假设。1860 围城期家书里教化弟侄、教育子女的话语被军务讨论挤压,词频从 8.19 降到 3.33。军务在 1860 还有边缘显著上升(,),反映围城期家书里军事内容继续密集。
1864 攻克天京触发的最显著效应是”战事”下降:,,在 0.01 水平拒绝零假设。这与传记叙事完全一致——攻克天京后湘军 1865 年大部解散,曾国藩家书里战事话语随之骤减。这条结果是湘军善后期的语言印记。
D2 自我修正、D8 三教融合、湘军三个主题在三个 treatment 下都不显著,说明它们的演化不被单一事件触发,属于长期渐进型变化。第 3 章断点检测会进一步看它们的转折点是否在事件外的年份。
这个雷区与阳明 1506 后”龙场”词频上升、苏轼 1080 后”黄州”词频上升是同构问题。真正的人格信号应当出现在那些不依赖物理位置的维度上,譬如 D2 自我修正、修身这种内省类维度。数据上 1853 ITS 在 D2 仅 不显著,在修身 也只是边缘显著,说明 1853 触发的主要是话题切换而非人格切换。
1.5 把信号集中到三个非地名维度
排除身份切换 sanity check 之后,本章三个 treatment 在数据上留下的稳健效应集中在三条不依赖物理位置的轴上。
1853 之后修身词频上升:修身主题(身 / 省 / 戒 / 畏 / 慎 / 改 / 克)level shift (),边缘显著。这与传记记载曾国藩把京官期立的日课十二条工夫带入湘军纪律一致,湘军营规每日扎硬寨 / 早起 / 不嫖 / 不赌 / 不杀降卒都是修身工夫在军事上的延伸。
1860 之后教化词频下降:教化主题(学 / 读 / 书 / 勤 / 俭 / 持家 / 教)level shift (),显著。围安庆期间家书一半内容讨论军务,教化弟侄、教育子女的语汇被挤压。1857 父丧后曾国藩的家长地位下降也是这一变化的伏笔。
1864 之后战事词频下降:战事主题(战 / 克 / 破 / 陷 / 围 / 援 / 贼 / 匪)level shift (),高度显著。1864 年 7 月 19 日攻克天京,1865 年湘军大部解散,1866 年曾国藩督师剿捻军不利,1866–1868 转入两江总督办洋务,战事话语随湘军解散一同退场。
为什么 D2 自我修正、D8 三教融合在 1864 后没有显著上升?v2 数据 1,482 封比 v1 的 108 封扩大 13.5 倍后,1864 后曾国藩家书里悔 / 愧 / 改等自我修正词与仁 / 义 / 礼 / 禅 / 道等三教词的密度都没有显著跳升。这条结果与小样本下看到的1864 反思转向印象不同。可能的解释有两条。一是大样本下年内方差被准确刻画后,跨年差异在统计上变得不显著;二是反思 / 三教是曾国藩一生持续的话题,1864 前后都高频,没有出现明显的 level shift。第 3 章断点检测会进一步检验这两条解释。
1.6 1870 教案均值比较
1870 天津教案是曾国藩 60 岁带病处理的最后一件大事,朝野骂为卖国,一夜声誉跌入低谷。本书数据集含 1870 家书 36 封、1871 家书 26 封,1872 年家书数据为零(年初曾国藩卒)。
post-period 仅 1871 一年,ITS 自由度不足,无法估 level shift 与 slope change 双系数。改用pre/post 均值比较法:把 1860–1869(10 年,743 封,壮年湘军到转洋务期)作为 pre,1870–1871(2 年,62 封,教案晚年)作为 post,直接比较两段的年平均维度评分。
| 序列 | pre 1860–1869 | post 1870–1871 | 差 |
|---|---|---|---|
| D2 自我修正 | 2.42 | 3.18 | |
| D7 隐逸倾向 | 8.31 | 11.05 | |
| D8 三教融合 | 6.84 | 7.92 | |
| 战事 | 5.96 | 1.42 | |
| 教化 | 3.71 | 7.20 | |
| 家族 | 25.14 | 31.65 |
教案后 1870–1871 与壮年期 1860–1869 比较的最强信号是隐逸倾向与家族两个主题的上升,以及战事的骤降。
隐逸倾向 :教案后家书里归田 / 老 / 病 / 衰 / 闲 / 辞官等词的密度显著上升,与曾国藩 60 岁带病处理教案后身心俱疲、多次上奏请退的状态一致。
家族 :教案后家书里家 / 祖 / 父 / 弟 / 子 / 侄等词的密度上升,反映曾国藩晚年话语重心从国事退回到家事。
战事 :这一下降不专属于教案,是从 1864 攻克天京后开始的长期下行趋势的延续。
教化 :1870 后曾国藩对子侄(尤其纪泽、纪鸿)的教化语言密度上升,与他临终”处事但求心安”的家书叮嘱一致。
需要诚实交代的是:post 仅 62 封,其中 1870 36 封,1871 26 封,两年的均值估计误差较大。更严格的 1870 ITS 需要补全 1872 年初的家书数据(估计还有 5–10 封),这条工作待后续 iteration。
1.7 编年精度与样本量限制
本章 ITS 用 1,482 封信按年聚合得到 31 个有数据的年份点(1841–1871)。这一样本量在单被试时间序列研究中算中等规模,远超阳明 28 年家书 1,283 篇与苏轼集 225 个 high+medium 编年篇目的水平。主要限制有三:
1855–1857 数据稀疏:1855 湖口大败、1856–1857 江西督师、1857 父丧二次丁忧,这三年家书数量较少,合计 17 封,年内均值估计噪声较大,ITS 估计精度在这三年段受影响。
1862 数据集中:1862 围天京前一年家书数量极高 280 封,占 v2 数据集 19%。这一年的高密度家书会让 1862 年内均值波动小,但跨年趋势对其敏感。
1872 数据为零:1872 年初曾国藩卒,该年家书数据为零。这一缺失使 1870 教案的 ITS post-period 只有 1871 一个有数据的年份,自由度不足跑标准 ITS。
1.8 方法卡:ITS 在曾国藩家书上的使用
1.9 本章知识地图
| 核心概念 | 核心内容 | 常见误解 | 为什么错 |
|---|---|---|---|
| ITS 因变量 | 每千字关键词频率 | 以为能直接用问卷 | 曾国藩已死 154 年,文本计量替代 |
| pre-trend 外推 | 1841–1852 数据外推 1854 后反事实 | 以为外推总是对 | pre 趋势若被未观测因素污染会偏 |
| level shift | 事件前后立即跳跃 | 以为它就是因果效应 | 跳跃可能由身份切换引起 |
| 身份切换 sanity check | 军务 验证 ITS 在工作 | 以为这就是人格证据 | 身在军中谈军务是 tautology |
| 1864 战事退场 | , | 以为 1864 是反思转向 | v2 大样本下反思维度不显,战事下降才显 |
| 1870 教案后退 | 隐逸 ,家族 ,战事 | 以为数据不能看到教案效应 | post 仅 62 封但信号强度足够 |
| 31 年年份点 | 单被试中等规模 | 以为太小不能信 | 比阳明苏轼数据规模都大 |