被忽视的起点:Paul Werbos 与反向传播的真正根源

当人们谈起深度学习的崛起时,往往提到 Geoffrey Hinton、Yann LeCun 和 Yoshua Bengio,却很少有人知道:反向传播算法的真正源头,早在1970年就已被提出。其提出者名叫 Paul J. Werbos,一位横跨工程、认知科学与政策建模的多领域研究者。

本篇文章聚焦于 Werbos 的早期思想与他在1994年出版的著作:

《The Roots of Backpropagation: From Ordered Derivatives to Neural Networks and Political Forecasting》
ISBN: 0-471-59897-6
出版社:John Wiley & Sons, 1994年

这本书既是历史档案,也是一部思想地图,系统回顾了反向传播算法的起源、数学基础与跨领域应用。

博士论文的前瞻性:超越回归,进入“反馈学习”

Werbos 在1970年完成的博士论文,题为:

Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences
(《超越回归:行为科学中的预测与分析新工具》)

这是反向传播算法最早的书面提出,论文中他指出:

  • 多层神经系统的训练不应止步于“前馈”(Feedforward),
  • 应引入“反馈式梯度传导”,即利用链式法则从输出层反向更新权重,
  • 这将使得复杂结构可以通过误差驱动方式自主学习。

他将其称为“ordered derivatives(有序导数)”的应用,也可看作是链式法则在机器学习中的系统推广。

值得注意的是:该论文并未立即引起学界广泛注意,主要因为当时:

  • 神经网络研究尚处边缘;
  • 多层感知器被认为“不可训练”(受限于感知器定理);
  • 计算资源无法支撑深层训练。

《The Roots of Backpropagation》的结构与思想

1994年,Werbos 终于出版了这本具有总结意义的著作,书中分为三个主要部分:

1. 理论起源(Roots of the Algorithm)
回顾 ordered derivatives 的提出;

数学上从贝尔曼方程、控制论、优化理论引出反向传播结构;

解释为何链式导数法则天然适合多层网络学习。

2. 神经网络中的实现
将反向传播引入多层感知器训练;

给出标准化的权重更新公式(等价于后来的 BP 算法);

分析激活函数、误差函数与收敛问题。

3. 跨领域应用探索
反向传播不仅用于图像识别、语言建模;

他曾将其用于宏观经济预测、政策建模、能源系统管理等任务;

强调神经网络是“通用学习系统”,其潜力不限于生物模拟。

为何被忽视?——算法传播与科学生态的反思

尽管 Werbos 是反向传播算法的原创者,他的贡献长期未被广泛承认,背后也映射出科学传播的一些现实逻辑:

原因 描述
学术主流路径不同 1970年代 AI 偏向符号主义,对联结主义兴趣不高
缺乏推广机制 没有后续大规模实验、合作团队支持
计算环境受限 深度模型无法获得实证成功,难以吸引注意力
Hinton 的重新发明 1986年 Hinton 团队用更系统方式、图示与实验将反向传播传播开来

Werbos 在 1980s-1990s 多次强调自己是原始提出者,也曾与 Hinton 交流,但他本人更关注算法的跨学科推广。

重新定位:从遗忘中浮现的核心人物

今天的 AI 研究越来越意识到历史的重要性。Werbos 的工作不仅是反向传播的开端,更代表一种“系统工程视角的人工智能路径”。

关键词 意义
有序导数 通用反馈学习机制,与控制论相通
多层网络 远早于 Hinton 使用多层结构建模复杂任务
通用建模工具 反向传播用于预测、控制、分类、优化等多种情境

他的思维方式,更像是将动态系统建模、智能控制与自适应机器融合为一体。这种跨学科的深度,也预示着反向传播之所以重要,不只是因为它能让 AI 胜任某项任务,而是它是一个“学习系统”的结构性解法。

算法的历史也是思想的历史

Paul Werbos 写下这本书的初衷,不仅仅是为了证明“我先提出了反向传播”,更是想说明:

“人类将需要一种统一的学习系统,不只为了分类图像,也为了理解世界、建模政策,甚至控制机器人。反向传播只是这个系统的开始。”

如果说 Hinton 为深度学习筑起高楼,那么 Werbos 则在几十年前就悄悄打好了地基。

 

You may also like