2025-04-112025-04-11 by Dr.Li

被忽视的起点：Paul Werbos 与反向传播的真正根源

当人们谈起深度学习的崛起时，往往提到 Geoffrey Hinton、Yann LeCun 和 Yoshua Bengio，却很少有人知道：反向传播算法的真正源头，早在1970年就已被提出。其提出者名叫 Paul J. Werbos，一位横跨工程、认知科学与政策建模的多领域研究者。

本篇文章聚焦于 Werbos 的早期思想与他在1994年出版的著作：

《The Roots of Backpropagation: From Ordered Derivatives to Neural Networks and Political Forecasting》
ISBN: 0-471-59897-6
出版社：John Wiley & Sons, 1994年

这本书既是历史档案，也是一部思想地图，系统回顾了反向传播算法的起源、数学基础与跨领域应用。

博士论文的前瞻性：超越回归，进入“反馈学习”

Werbos 在1970年完成的博士论文，题为：

Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences
（《超越回归：行为科学中的预测与分析新工具》）

这是反向传播算法最早的书面提出，论文中他指出：

多层神经系统的训练不应止步于“前馈”（Feedforward），

应引入“反馈式梯度传导”，即利用链式法则从输出层反向更新权重，

这将使得复杂结构可以通过误差驱动方式自主学习。

他将其称为“ordered derivatives（有序导数）”的应用，也可看作是链式法则在机器学习中的系统推广。

值得注意的是：该论文并未立即引起学界广泛注意，主要因为当时：

神经网络研究尚处边缘；
多层感知器被认为“不可训练”（受限于感知器定理）；
计算资源无法支撑深层训练。

《The Roots of Backpropagation》的结构与思想

1994年，Werbos 终于出版了这本具有总结意义的著作，书中分为三个主要部分：

1. 理论起源（Roots of the Algorithm）
回顾 ordered derivatives 的提出；

数学上从贝尔曼方程、控制论、优化理论引出反向传播结构；

解释为何链式导数法则天然适合多层网络学习。

2. 神经网络中的实现
将反向传播引入多层感知器训练；

给出标准化的权重更新公式（等价于后来的 BP 算法）；

分析激活函数、误差函数与收敛问题。

3. 跨领域应用探索
反向传播不仅用于图像识别、语言建模；

他曾将其用于宏观经济预测、政策建模、能源系统管理等任务；

强调神经网络是“通用学习系统”，其潜力不限于生物模拟。

为何被忽视？——算法传播与科学生态的反思

尽管 Werbos 是反向传播算法的原创者，他的贡献长期未被广泛承认，背后也映射出科学传播的一些现实逻辑：

原因	描述
学术主流路径不同	1970年代 AI 偏向符号主义，对联结主义兴趣不高
缺乏推广机制	没有后续大规模实验、合作团队支持
计算环境受限	深度模型无法获得实证成功，难以吸引注意力
Hinton 的重新发明	1986年 Hinton 团队用更系统方式、图示与实验将反向传播传播开来

Werbos 在 1980s-1990s 多次强调自己是原始提出者，也曾与 Hinton 交流，但他本人更关注算法的跨学科推广。

重新定位：从遗忘中浮现的核心人物

今天的 AI 研究越来越意识到历史的重要性。Werbos 的工作不仅是反向传播的开端，更代表一种“系统工程视角的人工智能路径”。

关键词	意义
有序导数	通用反馈学习机制，与控制论相通
多层网络	远早于 Hinton 使用多层结构建模复杂任务
通用建模工具	反向传播用于预测、控制、分类、优化等多种情境

他的思维方式，更像是将动态系统建模、智能控制与自适应机器融合为一体。这种跨学科的深度，也预示着反向传播之所以重要，不只是因为它能让 AI 胜任某项任务，而是它是一个“学习系统”的结构性解法。

算法的历史也是思想的历史

Paul Werbos 写下这本书的初衷，不仅仅是为了证明“我先提出了反向传播”，更是想说明：

“人类将需要一种统一的学习系统，不只为了分类图像，也为了理解世界、建模政策，甚至控制机器人。反向传播只是这个系统的开始。”

如果说 Hinton 为深度学习筑起高楼，那么 Werbos 则在几十年前就悄悄打好了地基。

in 人工智能 0 comments

被忽视的起点：Paul Werbos 与反向传播的真正根源

博士论文的前瞻性：超越回归，进入“反馈学习”

《The Roots of Backpropagation》的结构与思想

为何被忽视？——算法传播与科学生态的反思

重新定位：从遗忘中浮现的核心人物

算法的历史也是思想的历史

You may also like

GPT-5：三个关键设计的观察

美国短视频中的毕业生失业焦虑

“人工智能进中小学校园”的英国最新政策与路径