第一章导论：关于数据

1.1 认知革命，虚构故事与数据记录
1.2 数据-信息-知识-智慧
- 1.2.1 概念界定与层次区分
- 1.2.2 转化过程与统计学的角色
1.3 小数据与大数据
1.4 社会科学需要数据么？
- 1.4.1 没有数据的社会科学是怎样的？
- 1.4.2 数据为何是必需的？

1.1 认知革命，虚构故事与数据记录

1.1.1 认知革命与集体虚构能力

历史学家尤瓦尔·赫拉利在阐述“我们为何成为我们”时，提出了认知革命这个概念。他认为，真正让智人脱颖而出、最终支配整个星球的，并非仅仅因为我们会制造工具，或者拥有更强的体力，而是发生在大脑深处的一场革命——一种能够创造并共同相信“虚构故事”的能力。正是这种能力，使得人类可以超越生物学限制，实现大规模、灵活的合作，从而奠定了一切文明的基础。

首先，它突破了合作的规模限制。在认知革命之前，人类的合作主要建立在血缘关系和个体熟识的基础上，规模有限，难以超过150人的自然社群上限。然而，虚构故事，无论是神、图腾、祖先传说，还是后来的国家、货币与法律，使互不相识的人能够因为共同相信某一个概念而迅速结成同盟。只要两个人都相信“三皇五帝”的存在，或认同“我们是华夏子孙”，他们便可以协作狩猎、共同祭拜，甚至组织起千军万马修建长城、开拓贸易之路。这种基于叙事的合作，规模几乎可以无限扩展，使人类成为地球上唯一能进行超大规模灵活协作的物种。

其次，它带来了合作的极致灵活性。基于基因和血缘的合作是稳定但僵化的，改变需要漫长的时间。但依靠“故事”建立的社会秩序，却可以迅速调整、迭代甚至重构。一个部落可以因环境变化从信仰山神改信河神；一套法律可以因时代需求被重新修订；货币体系、经济制度、国家形态，都可以在人类的共同想象中被不断重塑。这种依靠文化而非基因实现的快速演化，使人类能以惊人的速度适应环境变迁，从非洲草原扩散至全球各地，并发展出丰富多元的社会形态。

更重要的是，这种虚构能力构成了人类抽象思维、语言与文化发展的基石。它实现了抽象思维的具象化。诸如“正义”、“权利”、“公司”这类看不见摸不着的概念，正是通过神话、仪式、法律条文和制度被赋予形态，被人理解和传播。实现了语言的超越。语言不再只是用来警告“河边有狮子！”的工具，更成为创造新现实的媒介：我们可以讲述从未发生的故事，也可以承诺一个尚未实现的未来。也成为文化与文明的引擎。知识、规范、技术、价值观，藉由故事得以跨越时空积累和传递。一代人的智慧可以通过史诗、典籍、律法被下一代继承，文化因此实现滚雪球式的发展，越来越复杂、精密、强大。

认知革命所揭示的集体虚构能力，认知革命和集体虚构能力，一方面让我们认识到人类社会“基于建构”的本质。另一方面也从根本上重塑了我们对于”有用”与”无用”的认知边界。它向我们昭示了一个深刻的悖论：那些看似”无用”的虚构故事——神话、信仰、价值观等抽象建构，恰恰是人类文明最具有驱动力的实用工具。正是这种超越物质层面的叙事能力，让我们的祖先得以跳出”拎着棒子追野猪”的实在论局限，编织出国家、货币、法律等让大规模协作成为可能的制度网络。

当我们认识到整个人类文明大厦都建立在这样的虚构基石之上，就能理解社会科学所研究的恰恰是这个世界最基础的”操作系统”。它探讨的不是”如何建造一座桥”这样的具体技术问题，而是”我们为什么要建桥”、“桥应该连接何处”以及”谁可以通过这座桥”等更为根本的命题。这些问题的答案，永远无法单纯通过工程技术来获得。

所以，当有人质疑社会科学的价值时，我们需要清醒地认识到：正是这些看似”无用”的叙事和建构，决定了技术发展的方向和意义。没有社会科学的洞察，技术可能只会让我们更高效地”拎着棒子追野猪”，而非建设一个更加公正、繁荣和有意义的世界。

而我们这门课，就从这里开始。

1.1.2 从虚构故事到数据记录：治理与知识的物质化

当然，作为一门统计学课程，我们并不打算长久停留在“虚构故事”本身的历史叙事功能上。沿着历史学者指出的轨迹，我们真正希望追问的是：数据与统计究竟从何而来？它们在这些庞大的集体想象中，又承担了怎样的角色？

事实上，早期大型文明，如美索不达米亚、古埃及与古代中国的诞生与扩张，与数据记录技术的出现和发展密不可分。无论是美索不达米亚的陶筹与楔形文字、古埃及的纸草文书与标准度量系统，还是古代中国的结绳记事与竹简户籍，这些技术都远不仅是“书写”的雏形，更构成了一套治理体系的基础设施。它们承担了一项关键任务：将抽象的权威与集体的想象，“转译”为可操作、可执行的现实。

我们由此可以得出一个核心论点：数据统计在本质上，正是一套将抽象的“集体虚构”予以具象化与操作化的关键技术。一个帝国无法仅凭神话或宗教叙事维持运行。口耳相传可以凝聚情感，却难以协调大规模的现实行动。若要有效实施治理，如征收赋税、调度劳力、执行律法，统治者就必须将“王权”“国家”“领土”和“所有权”等不可触摸的概念，转化为可记录、可计量、可核对的数据形式。例如，“王权”不再仅仅是神授的权威或血统的象征，而是具象化为可清点、可调配的士兵数量、盔甲与武器的数目；“国家”也不再止于文化或想象的共同体，而是被转化为可丈量、可统计的土地面积与人口数量。

正是在这一转化过程中，数据成为连接抽象观念与现实世界的关键桥梁。它不仅将虚体般的集体想象，如君权神授、国土疆界、社会等级，物化于黏土板、绳索或纸草之上，更通过对此类记录的系统性分析与应用，反向约束、塑造乃至支配现实中人的行为与资源的流动。可以说，若没有数据技术，就难以实现跨地域、跨时空的规模化治理：法律无法贯彻，税赋难以公平摊派，大型工程亦无从协调。这一点，我们从统计学的英文Statistics与国家的英文State的相似性中，或许可以找到词源上的证据。

因此，数据自诞生之初，便是内嵌于治理逻辑之中的技术。从这个意义上讲，当今所谓的“数字治理”并非横空出世的创新，而是这一古老传统的极致延伸与技术性‘弘扬’。而“数字虚拟现实”也并非全新的理念，因为它本身就是将“虚构故事”具象化、操作化的技术，我们现在只是重返它的本质。或许，这也为毕达哥拉斯在2600年前的断言‘数是万物的本原’，提供了一个来自治理与权力视角的、深刻而现实的注脚。

1.1.3 数据记录的科学意义：从思辨到实证

数据记录不仅服务于行政与治理，也从根本上催生了早期科学思维的萌芽。当人类开始系统性地观察、记录并分析自然现象与社会行为时，知识的生产方式发生了根本转变：从依赖神话、权威与思辨，逐渐转向基于观测、数据与验证的认知范式。尽管对“科学方法”的明确提倡，还要等到几千年后的弗朗西斯培根。

天文学是最早系统运用数据记录的领域之一。古代美索不达米亚和中国的天象官持续数百年记录行星运动、彗星出现与日月食等天象。这些长期积累的数据不仅用于占星或祭祀，更使人们得以识别天体运行的周期性规律，从而预测天文事件、修订历法。没有这样持续而准确的数据工作，托勒密的理论体系无法建立，哥白尼的革命性学说也将失去根基。

同样，在医学领域，古埃及和古希腊的医生开始记录不同草药和手术手法对特定病症的疗效，通过比较病例数据积累经验、形成可传承的治疗知识。希波克拉底强调“医学应建立在观察与推理之上”，其主张背后正是这样一种数据驱动的实证精神。

这种以数据为基础的知识建构方式，标志着人类逐渐走出纯粹想象的领域，迈入一个可检验、可修正、可积累的认知体系。数据成为假说的试金石：一个理论是否成立，不再仅仅取决于它是否源自神灵或权威，而在于它能否合理解释已有观测数据，并经受新数据的持续检验。

因此，数据不仅是治理的工具，更是理性的基础设施。它使知识逐渐摆脱纯粹的思辨与叙事，转而建立起以事实、证据与逻辑为支撑的科学体系。尤其在20世纪，随着波普尔提出“可证伪性”原则，将想象与验证系统结合，形成了新的科学逻辑。统计学，作为在这一漫长历程中逐渐形成的、关于如何收集整理数据并从中提取信息、进行推断与决策的核心方法论，终于展现出其强大力量，深刻改变了人类理解世界的方式。

1.2 数据-信息-知识-智慧

1.2.1 概念界定与层次区分

如果我们以为有了数据，一切便水到渠成，那便有些天真了。数据本身并不自动产生价值，它需要被理解、组织与赋予意义，才能最终通往智慧的形成。尽管如前所述，数据记录的起源可能与虚构叙事相伴而生，为掌管和传递意义而服务，但当数据作为独立的要素推动社会进步时，我们则需要重新审视其转化路径与内在机制了。现在，让我们将目光从宏大的历史与哲学叙事收束至信息学的具体语境中，探讨一个虽非严格理论、却极具启发性的框架——DIKW 体系。

DIKW，即数据（Data）、信息（Information）、知识（Knowledge）与智慧（Wisdom），是对人类认知进程中信息升华过程的系统化阐释。它通过四个层级的划分，揭示出一种“未道明时显得玄奥，说破后令人豁然开朗”的认知跃迁路径，勾勒出如何从原始、无意义的观测片段，逐步转化为可指导行动、创造价值的深刻见解。

第一层：数据（Data）数据是起点，是原始的、未经加工的符号记录，是外部世界可被感知和测量的最基本单元。它可以是数字、字符、图像、声音或信号，本身缺乏上下文、目的和诠释。例如，一个孤零零的“15”、一段记录下的“2000人”、传感器传来的一串电压读数——这些都只是数据。它们如同散落的沙粒，尚未被组织成清晰的图案。没有后续的处理，数据本身几乎是沉默的。

第二层：信息（Information）信息是经过处理、被赋予语境和组织结构的数据。它通过对数据进行分析、清洗、分类和归纳，使其能够回答一些基本问题：谁（Who）？什么（What）？何时（When）？何地（Where）？例如，“今天南京的平均气温是15摄氏度”是一条信息，它给原始数据“15”附加了时间、地点和属性；“共有2000人阅读了本本篇文章”也是一条信息，它明确了“2000人”的具体含义。信息是已经初步成型并具有描述性价值的材料，它减少了不确定性，提供了基本的事实描述，但其价值仍更多体现在“知其然”，而非“知其所以然”。

第三层：知识（Knowledge）知识是信息的深化与内化结果。它借助对不同信息单元的比较、关联、分析与综合，形成对事物运行规律、模式与原则的系统理解。知识能够回答“如何（How）”之类的问题，并具备指导实际行动的能力——而这一过程往往需要经验的沉淀与反复验证。例如，通过分析多年气温信息，我们可得出如下知识：“武汉春秋很短，多准备冬天和夏天的衣服可以”；透过对数万份问卷的挖掘，我们可能形成这样的认知：“教育水平与收入呈显著正相关”。知识不再是孤立事实，而是彼此联结、可被应用、可供传递的体系，它蕴藏于人的心智、组织的流程或共享的文化之中。

第四层：智慧（Wisdom）智慧位于DIKW模型的顶端，是最抽象但也最具价值的一层。它超越了知识和信息，体现为在特定情境下对知识进行审慎判断、价值权衡和长远决策的能力。智慧关心“为什么（Why）”，涉及伦理、后果、影响和价值观。它是在多元甚至冲突的知识基础上，做出明智选择、定义方向、理解根本意义的能力。例如，基于对气候系统的深厚知识（而不仅仅是气温信息），决策者展现出智慧：他们不仅知道如何减少碳排放，更能够权衡经济、社会与环境的多重价值，制定出负责任的、可持续的能源政策。智慧的本质，是使得知识的使用符合人类更长远的福祉和更根本的原则。

与许多经典的理论框架一样，当解释过DIKW模型之后，我们或许会觉得它异常简单——仿佛只是四个概念的逐级叠加，甚至显得有些“不过如此”。然而，在罗素·艾可夫于1989年对其作出系统阐述之前，这一认知阶梯在许多学者与实践者的意识中，仅是一种模糊而未被言明的共识。正是这一体系的提出，使我们得以在清晰的逻辑张力下思考并批判某些关键问题。例如，在当今这个被数据洪流席卷的时代，我们真正稀缺的从来不是数据本身，而是将数据转化为信息、知识乃至智慧的能力与耐心。DIKW模型因此成为数据分析、信息处理、知识管理乃至人工智能领域中一个基础而持久的思考框架，不断启发我们如何更有效地收集数据、理解信息、运用知识，从而走向更智慧的决策与行动。

1.2.2 转化过程与统计学的角色

DIKW模型中的四个层次——数据、信息、知识与智慧——并非自动逐级生成，而是依赖人的认知活动与专业技术主动转化的。数据不会自行变成信息，信息也不会自发凝结为知识，知识更不会自动升华为智慧。这一过程需要批判性思考、严谨的方法论以及持续的价值反思。统计学在这一转化过程中扮演着核心方法论角色。它提供了一套系统且可复现的语言与工具，帮助我们将无序的数字和观察转化为有意义的洞察，并最终支撑智慧的生成。

首先，在从数据到信息的转化中，描述统计学（Descriptive Statistics）发挥了基础性作用。原始数据往往是庞大、杂乱且难以理解的，例如成千上万行的调查记录或传感器读数。通过描述统计，我们运用汇总指标（如均值、中位数、标准差）、频率分布、可视化图表（如直方图、散点图）等方法，为数据赋予语境和结构，使其能够回答“发生了什么？”以及“发生在谁？何时？何地？”等基础问题。本质上，这一过程是通过降维和概括，从混沌与高复杂性中提取出可理解的特征与模式，从而生成真正有意义的信息。

进而，在从信息到知识的跃迁中，推断统计学（Inferential Statistics）成为关键推动力。知识的本质是理解现象背后的规律、关系和原理，它要求我们超越当前已掌握的信息片段。推断统计使我们能够利用样本数据所提供的有限信息，去推断更大总体的特征、检验理论假设、建立预测模型，并量化结论中的不确定性（例如通过置信区间和显著性检验）。回归分析、方差分析、假设检验等工具，帮助我们识别变量间的系统性模式，回答“事情是如何发生的？”以及“为什么是这样？”等更深层的问题，从而形成可被验证、可迁移的系统性知识。

然而，这一转化过程充满挑战。数据质量（如缺失值、测量误差、抽样偏差）可能从源头上影响整个推理链条；分析方法的选择与误用（如忽略模型假设、滥用相关关系）可能导致得出误导性结论；更为棘手的是混淆变量与因果识别的难题——统计关联并不等同于因果机制，缺乏严谨的实验设计或因果推断框架，很容易陷入“虚假相关”的陷阱。这些挑战意味着，统计工具的运用不仅要求技术熟练，更要求深刻的逻辑理解和持续的批判性审视。

因此，在社会科学中学习数理统计，其终极目标远不止于掌握处理数据的技巧（即停留在生成信息和知识的技术层面）。更重要的是，它旨在培养一种基于证据进行严谨思考、审慎判断和理性决策的智慧（Wisdom）。这种智慧体现在：能够评估统计结论的可信度与局限性；能够在面对高度不确定性的情境时，合理权衡风险与收益；能够识别他人论证中的逻辑漏洞或数据误导；能够避免被虚假信息、片面叙述或错误推理所左右…

1.3 小数据与大数据

1.3.1 先问总体，再论大小

如果问1 KB 与 1 TB哪个大？我们肯定能够指出是后者。但如果说哪个是小数据或者大数据，我们就得犹豫一下啦。因为，大小的判断是需要参照目标的。比如，描述一次课堂互动，1 KB 的文本记录已近乎总体；而刻画全国舆情，就算堆上几十TB的社交媒体数据，也仍只是一个存在显著选择偏差的样本（网民 ≠ 国民）。所以，讨论大数据和小数据的前提，永远得先问：我们想了解的总体究竟是什么？

当前我们常用“4V”特征（Volume, Velocity, Variety, Value）来描述大数据。这种定义方式固然有助于从形式上识别大数据的某些技术属性，但若脱离对数据目标的深刻理解，此类标准容易流于表面。因此，相较于形式化的“4V”定义，一个更具方法论意义的界定是：能够以极高比例逼近总体、或在操作上可被视为总体本身的数据集合，才可称为大数据。其根本优势在于大幅降低抽样误差，从而实现对宏观模式的精细刻画。

但同时必须清醒地认识到：只要数据未能完全覆盖总体（这几乎是所有社会研究的常态），无论其规模多大，在哲学本质上都与传统“小数据”一样，仅是对总体的一种近似。二者之间的区别，犹如“五十步”与“百步”，只是程度之差，而非本质之别。大数据并不天然更“真实”、更“权威”；在使用大数据技术时，我们仍需保持方法上的反思：它们并非直接“揭示”总体，而是与其它数据一样，通过推断逼近总体。

最后，应始终警惕“成本-收益”的平衡。盲目追求数据规模可能导致边际效益骤降。若某一关键变量已能有效解释现象（例如“收入水平”之于“消费能力”），引入成千上万个无关变量反而会带来冗余与噪音。正如社会治理一样，若单一主体已能高效解决问题，执意构建复杂而昂贵的“全数据”多主体系统，或许只是技术的炫耀，而非理性的体现。

1.3.2 小数据范式：质量优先

小数据源于社会科学研究的经典范式，其核心追求在于因果推断与理论构建，而非数据规模。这类数据通常产生于随机抽样调查、严格控制实验、深度访谈与民族志研究等方法，其设计初衷是通过精巧的研究设计确保数据的代表性、测量效度和信度。

小数据的优势体现在其深度与精度。它通过有限但高质量的样本，致力于回答”为什么”（Why）和”如何作用”（How）的问题，旨在揭示现象背后的内在机制和因果规律。无论是通过随机对照实验验证政策效果，还是通过深度访谈理解个体行为动机，其价值在于”小而精”，能够充当检验理论、建立因果关系的杠杆。

然而，使用小数据时需要避免两个问题：一是因其样本规模有限，在运用统计方法时往往需要较强的假设前提，若忽视对这些假设的检验，可能影响推断的可靠性；二是将其结论过度外推，忽视抽样框的局限性，误将基于特定样本的发现当作普适真理。

1.3.3 大数据范式：规模为用

大数据诞生于数字时代的被动记录，其核心能力在于模式识别与趋势预测。这类数据主要来源于传感器、网络日志、社交媒体平台和商业交易记录等，通常以过程性、非预设的副产品形式存在，以其原始、海量和多样的形态持续产生。

虽然大数据具备”4V”特征（Volume, Velocity, Variety, Value），但常伴随低价值密度和强混杂性。不过，大数据擅长进行探索性分析，用于模式识别、趋势预测和假设生成。例如通过搜索引擎数据预测商品流行趋势，或通过交易数据识别异常模式，展现出其在宏观态势感知方面的独特价值。

但在使用过程中需要警惕三大方法论风险：将相关关系误作因果关系，忽视数据固有的结构偏差与混杂性；将”数据量大”等同于”准确性高”，忽略潜在的系统性测量误差与选择偏差；过度追求算法复杂度而忽视对总体代表性的审慎考察，陷入“精确求解错误问题”的困境。

1.3.4 统计学与大数据小数据

统计学是诞生于小数据时代的科学。尽管我们已迈入大数据时代，不少人开始宣扬“统计学已然过时”，号称当下是“机器与算法”的天下，然而，认为“大数据将终结统计学”实属一种短视的误解。恰恰相反，统计学不仅没有褪色，反而在大数据的浪潮中焕发出新的生机，展现出更深刻的方法论意义与科学韧性。

一方面，尽管大数据具备规模庞大、维度复杂、实时性强等显著优势，但其获取门槛高、技术成本大、计算资源要求苛刻，对广大研究者——尤其是青年学者、研究生与独立学术工作者——而言，往往难以实际驾驭。正如那句扎心的话：“大数据虽好，却不一定是你的。”相比之下，小数据以其易获取、易处理、可独立操作等特质，为研究者提供了培养统计思维、锤炼实证推断能力、提出原创性问题的现实路径。它让研究者在资源约束下仍能开展严谨、有深度的探索。在此意义上，统计学依然是小数据研究中最可靠的思维伴侣。

另一方面，统计学并未因大数据兴起而消亡，反而构成其分析方法的重要基石。以统计机器学习为代表的新兴交叉范式，正逐步形成“大数据样本，小数据方法”的研究路径。该类方法融合了大数据的宏观覆盖能力与小数据推论的严谨架构，既拓宽了认知边界，又确保了结论的稳健性与可解释性，从而在诸多场景中逐渐超越那些仅依赖算法复杂度、忽略统计原理的传统机器学习策略。

更关键的是，大数据与小数据应在统计学的统一框架中实现有机融合。科学哲学家卡尔・波普尔所提出的“猜想与反驳”科学演进机制，在大数据语境下得以重新诠释：大数据技术可承担“假设生成”之责，通过模式识别、异常探测、关联挖掘等手段自动提出潜在命题；而小数据则负责“严格验证”，借助因果推断、机制分析、实验设计等方法检验这些命题的真伪。二者协同运作，形成“探索—验证—再探索”的迭代循环，将显著提升科学研究的效率与推论的可靠性。

无论数据规模大小，其最终科学价值仍根本取决于研究者是否能够提出真实的问题、施行严谨的论证，并始终保持开放、批判与自我修正的科学态度。统计学思维，正是贯穿这一数据融合路径的核心主线。在这个数据充斥的时代，真正的智慧从不在于拥有多少数据，而在于能否理解数据背后的逻辑——而这，正是统计学永恒的价值所在。

1.4 社会科学需要数据么？

1.4.1 没有数据的社会科学是怎样的？

在探讨社会科学是否需要数据之前，我们不妨回顾一个经济学史上的经典争论：如何实现经济繁荣？新古典经济学派（Neoclassical Economics）的经济学家主张“降低工资能够刺激经济”。他们的逻辑基于边际生产力理论：工资作为劳动力的价格，其下降会降低企业的生产成本，从而激励企业雇佣更多工人、扩大再生产，最终通过市场机制实现新的均衡与增长。然而，凯恩斯学派（Keynesian Economics）的经济学家则提出截然相反的观点，认为“提高工资才能促进繁荣”。他们从有效需求理论出发，强调经济衰退的根本原因在于需求不足。提高工资可以直接增强劳动者的购买力，扩大社会消费总需求，进而带动企业投资和生产，形成经济向上的良性循环。

在实证数据匮乏的时代，这场争论长期陷入僵局：双方均以严密的逻辑推导构建出自洽的理论体系。新古典学派的论证建立在市场完全出清的长期假设上，而凯恩斯学派则更关注价格刚性下的短期非均衡状态。理论层面，两者皆能自圆其说；实践层面，却缺乏客观依据判断孰是孰非。正是这种“公说公有理，婆说婆有理”的困境，催生了“是骡子是马，拿出来遛遛”的计量经济学。它从数据和事实出发，将经济学争论从纯粹的逻辑思辨领域，转向可检验、可观测的经验事实领域。通过建立统计模型、运用识别策略、处理因果推断，使经济理论得以接受数据的审阅与评判。

尽管计量经济学亦面临诸多批评（也可以看成对统计学本身的批评）：它依赖数据的可得性与质量，容易陷入技术化、短视化的陷阱，只擅长回答局部性、因果性的“小问题”，难以应对系统性、结构性的大变革；倾向于追求统计显著性，而偶尔忽略经济意义与社会价值。但即便如此，相比一万种既无法证实也难以证伪的理论，一个能够经得起数据检验、推动现实问题解决的理论，显然更具有对话的价值与实践的力量。它帮助提供了一种在争论中建立共识的可能，哪怕这种共识是暂时的、有边界的。

我们再回顾社会科学更早期的形态。那时，知识的生产更多依赖于哲学思辨、个人洞察以及权威学说的主导。这些方式或许闪耀着智慧的光芒，却也不可避免地带有强烈的主观性与偶然性。在没有系统数据支撑的时代，即便是亚里士多德那样伟大的思想家，仅凭观察与推理所构建的物理学体系也难免错误频出；而孟子即使觉得儒家学说是最好的，也只能感慨“天下之言，不归杨，则归墨”，他们的理论要等到汉代董仲舒“罢黜百家，独尊儒术”，借助政治权力的推行，才得以确立其社会效用。

在研究中，如果仅凭权威、直觉与个案，社会科学也容易得出诸如“贫困源于懒惰”“成功全靠个人努力”等片面甚至有害的结论。这类论断不仅缺乏证据支持，更容易固化偏见、为不平等提供合理性辩护。更值得警惕的是，脱离数据的政策制定往往沦为“拍脑袋”决策。无论是历史上某些基于道德教条的经济试验，还是依赖个人经验的公共管理，其失败教训一再表明：缺乏证据支持的理性，很可能只是一种高度自洽的盲目。

1.4.2 数据为何是必需的？

现在，我们来总结一下数据在社会科学中的必要性吧，尽管这些答案已经隐藏在了上一节的讨论中。为了强调数据不仅是方法论改变，更是认知论的革新，我们还是清晰地把它们写下来：

第一，数据帮助我们超越个体经验与认知偏见。社会科学研究长期面临一个根本挑战：研究者自身的视角和社会的复杂性极易引入系统性偏见。个人洞察、权威学说或典型案例虽具启发性，但往往受限于局部经验和主观价值判断，难以摆脱“幸存者偏差”、“选择性关注”等认知陷阱。例如，仅凭观察可能得出“贫困源于懒惰”的片面结论，因为这符合人们的归因直觉，却忽略了结构性、制度性等不可见的制约因素。

数据在此扮演了“系统性证据”的角色。它通过对大规模现象的标准化记录与采集，将研究基础从零散的个人印象转移至可重现、可审核的事实整体。例如，通过收集家庭收入、教育投入、地区发展政策等面板数据，研究者能够辨析贫困代际传递的真正机制，从而超越个体叙事，揭示更具普遍性的社会规律。数据在此意义上充当了“公正的观察者”，帮助社会科学克服人性的认知局限，走向更客观、更中立的分析。

第二，数据帮助我们实现抽象概念的测量与操作化。比如，应急管理中的许多核心概念，如“应急能力”“脆弱性”“恢复力”等，看似抽象，却直接影响政策制定与实践效果。若没有数据支撑，这些概念只能停留在理论探讨层面，无法真正指导实践。例如，“社区灾害恢复力”这一概念，若无数据支撑，往往沦为空洞的口号。

数据的作用在于将这些抽象概念转化为可测量、可操作的指标。例如，“应急能力”可以通过应急物资储备达标率、应急队伍响应时间、应急预案完备度等指标进行量化；“社区脆弱性”可以通过老年人口比例、基础设施老化程度、单次灾害平均经济损失等数据来刻画；“恢复力”则可以通过灾后经济恢复速度、居民心理健康恢复情况、社区功能恢复正常化时间等维度来衡量。有了这些数据，我们才能科学评估不同社区的防灾减灾水平，比较不同政策的实际效果，回答“哪些措施真正提升了社区应对灾害的能力”等关键问题。

第三，数据帮助我们检验理论假说与预测社会趋势。数据是社会理论的“试金石”。一个理论是否有效，不再取决于它是否出自某位权威，或者逻辑是否自洽，而在于它能否得到经验数据的支持。例如，“教育提升收入”这一假说，需借助收入与教育年限的大规模调查数据，运用回归分析等方法控制其他变量后，才能得以验证或修正。

更进一步，基于数据的模型还使预测和干预成为可能。通过分析历史数据建立起来的计量模型，能够模拟政策变更（如提高最低工资、引入碳税）可能带来的社会经济后果，从而为决策提供前瞻性的依据，减少“拍脑袋”式政策带来的社会风险。在这种语境下，数据不仅帮助人们理解社会“曾经如何”，更辅助决策者探索社会“未来怎样”，增强了社会科学应对现实问题的能力。

因此，数据对于当代社会科学而言，并非锦上添花的装饰，而是走向科学化、精密化与实现知识累积的必由之路。它虽不能回答所有问题，却可以帮助我们更好地分析问题，引导我们不断逼近社会逻辑与人类行为的本质。

当然，实现这一切的前提是你得学好这门“社会科学的数理统计基础”课程。

第一章导论：关于数据

蒋新宇

2025-11-06

1.1 认知革命，虚构故事与数据记录

1.1.1 认知革命与集体虚构能力

1.1.2 从虚构故事到数据记录：治理与知识的物质化

1.1.3 数据记录的科学意义：从思辨到实证

1.2 数据-信息-知识-智慧

1.2.1 概念界定与层次区分

1.2.2 转化过程与统计学的角色

1.3 小数据与大数据

1.3.1 先问总体，再论大小

1.3.2 小数据范式：质量优先

1.3.3 大数据范式：规模为用

1.3.4 统计学与大数据小数据

1.4 社会科学需要数据么？

1.4.1 没有数据的社会科学是怎样的？

1.4.2 数据为何是必需的？

第一章 导论：关于数据

蒋新宇

2025-11-06

1.1 认知革命，虚构故事与数据记录

1.1.1 认知革命与集体虚构能力

1.1.2 从虚构故事到数据记录：治理与知识的物质化

1.1.3 数据记录的科学意义：从思辨到实证

1.2 数据-信息-知识-智慧

1.2.1 概念界定与层次区分

1.2.2 转化过程与统计学的角色

1.3 小数据与大数据

1.3.1 先问总体，再论大小

1.3.2 小数据范式：质量优先

1.3.3 大数据范式：规模为用

1.3.4 统计学与大数据小数据

1.4 社会科学需要数据么？

1.4.1 没有数据的社会科学是怎样的？

1.4.2 数据为何是必需的？

第一章导论：关于数据