本章目录
本章目录
把顾炎武主集分为日知录、亭林文集、亭林诗集三块,各自编年情况;解释为什么日知录无法做时序分析、诗集如何按 5 卷切时段;给出 5 时段编年的中位年估算与可能误差范围;说明 ITS 在 5 个数据点上的统计局限与解读边界。
第 0 章交代了顾炎武案例的特殊性:数据缺乏完整编年。本章详述这条限制,说明本书采取的 诚实折中 路径,并交代读后续 ITS 结果时应当带的统计 caveat。
1.1 三块数据的编年特性
| 数据块 | 字数 | 切分单位 | 编年情况 |
|---|---|---|---|
| 日知录 | 506,801 | 878 个条目(○条目名) | 无编年(30 年累积札记,单条无年份) |
| 亭林文集 | 约 130,000 | 613 个篇目(6 卷) | 按文体不按时序(论 / 序 / 书 / 杂著) |
| 亭林诗集 | 约 100,000 | 329 首诗(5 卷) | 按时序编卷,卷次对应大致年段 |
三块数据中只有 亭林诗集 提供时序信号。这条限制让本书的 ITS 分析对象只能是诗集 329 首,日知录与文集只能进入第 4 章跨体裁画像与第 5 章主题分布,不能进入第 2 章 ITS。
1.2 诗集 5 时段切分的依据
亭林诗集 5 卷按时序编排是清代以来公认的共识。张穆 顾亭林年谱、钱穆 顾亭林学术编年、潘耒 亭林先生神道表 都遵循这条共识。但 具体每卷对应哪几年 在不同年谱里略有差异。本书采用以下中位年估算(基于卷内代表诗的事件锚定)。
| 时段 | 年份范围 | 中位年 | 代表诗及事件锚 |
|---|---|---|---|
| P1 易代初期(卷一 55 首) | 1644–1650 | 1647 | 大行哀诗(1644 崇祯崩);表哀诗(1645 母卒) |
| P2 江南游历(卷二 58 首) | 1651–1659 | 1655 | 恭谒孝陵(1653);流转(江南改名换姓) |
| P3 山东游历(卷三 62 首) | 1660–1666 | 1663 | 莱州(1660 抵山东);登岱(1662 登泰山) |
| P4 山西游历(卷四 74 首) | 1667–1674 | 1670 | 霍山(1667 至太原);五台山(1670 结交傅山) |
| P5 晚年至卒(卷五 80 首) | 1675–1682 | 1678 | 广昌道中(1675 定居陕西);兄子洪善北来(1680) |
每个时段中位年是该卷代表诗事件年份的均值,实际诗的写作时间在 ±3 年范围内。这条 中位年估算 有两个用途。第一,把每首诗赋予该卷中位年作为 近似年份,让所有诗能进入按年聚合的 ITS 框架。第二,把 5 时段间的过渡(1647→1655→1663→1670→1678)作为散度计算的时间锚点,见第 2 章。
1.3 5 时段 ITS 的统计局限
核心局限:仅 5 个数据点。ITS 模型有 4 个参数(截距、pre 趋势斜率、level shift、slope change),在 5 个数据点上自由度仅 ,标准误估计极不稳定。任何单一 值都应当谨慎解读,特别是 的极强信号往往是小样本噪声而非真实效应。
后续章节会用三方法互校。第一,ITS(第 2 章)给点估计,重点看 符号与量级,不看 值精度。第二,5 时段散度(第 2 章 + 第 3 章)给非参数化的话语变化幅度,不依赖 ITS 假设。第三,跨作者散度(第 3 章)把顾炎武 5 时段与王夫之 + 黄宗羲合集对照,看顾炎武在三遗民共有话语之上的剩余特性。
1.4 无编年数据的两个分析方向
日知录 506K 字 + 文集 130K 字加起来比诗集 100K 字大 6 倍,完全放弃太可惜。本书把这两块数据用在两个非时序分析方向。
方向一:跨文体画像(第 4 章)。日知录是 札记体,文集是 论说书启体,诗集是 抒情体。三体裁在 8 维人格与 9 主题上的均值差异本身就是 顾炎武在三种社交语境下的人格切片,不需要时序数据。
方向二:9 主题画像(第 5 章)。顾炎武 9 主题(经学 / 史学 / 易代 / 故国 / 制度 / 兵事 / 风俗 / 学术 / 隐遁)在日知录与文集中的密度分布反映他 一生学术关切的轮廓,不需要逐时段时序。
这两个方向把日知录与文集的数据价值充分利用,弥补诗集 ITS 数据量小的不足。
1.5 本章知识地图
| 核心概念 | 核心内容 | 常见误解 | 为什么错 |
|---|---|---|---|
| 日知录无编年 | 30 年累积札记单条无年 | 以为可以系年 | 顾炎武自己说 时复改定,累积 |
| 诗集 5 卷时序 | 5 时段中位年 1647–1678 | 以为卷次随机 | 清代年谱共识按时序编卷 |
| 5 时段 ITS 局限 | 仅 5 数据点,自由度低 | 以为 就显著 | 小样本下 值虚高常见 |
| 日知录文集非时序 | 用于跨体裁 + 主题画像 | 以为放弃 | 占总字数 80%,不能浪费 |
| 诚实折中 | 跑 ITS 但带 caveat | 以为应当全放弃 ITS | 需与三案例可比,不可放弃 |