
被忽视的起点:Paul Werbos 与反向传播的真正根源
当人们谈起深度学习的崛起时,往往提到 Geoffrey Hinton、Yann LeCun 和 Yoshua Bengio,却很少有人知道:反向传播算法的真正源头,早在1970年就已被提出。其提出者名叫 Paul J. Werbos,一位横跨工程、认知科学与政策建模的多领域研究者。
本篇文章聚焦于 Werbos 的早期思想与他在1994年出版的著作:
《The Roots of Backpropagation: From Ordered Derivatives to Neural Networks and Political Forecasting》
ISBN: 0-471-59897-6
出版社:John Wiley & Sons, 1994年
这本书既是历史档案,也是一部思想地图,系统回顾了反向传播算法的起源、数学基础与跨领域应用。
博士论文的前瞻性:超越回归,进入“反馈学习”
Werbos 在1970年完成的博士论文,题为:
Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences
(《超越回归:行为科学中的预测与分析新工具》)
这是反向传播算法最早的书面提出,论文中他指出:
- 多层神经系统的训练不应止步于“前馈”(Feedforward),
- 应引入“反馈式梯度传导”,即利用链式法则从输出层反向更新权重,
- 这将使得复杂结构可以通过误差驱动方式自主学习。
他将其称为“ordered derivatives(有序导数)”的应用,也可看作是链式法则在机器学习中的系统推广。
值得注意的是:该论文并未立即引起学界广泛注意,主要因为当时:
- 神经网络研究尚处边缘;
- 多层感知器被认为“不可训练”(受限于感知器定理);
- 计算资源无法支撑深层训练。
《The Roots of Backpropagation》的结构与思想
1994年,Werbos 终于出版了这本具有总结意义的著作,书中分为三个主要部分:
1. 理论起源(Roots of the Algorithm)
回顾 ordered derivatives 的提出;
数学上从贝尔曼方程、控制论、优化理论引出反向传播结构;
解释为何链式导数法则天然适合多层网络学习。
2. 神经网络中的实现
将反向传播引入多层感知器训练;
给出标准化的权重更新公式(等价于后来的 BP 算法);
分析激活函数、误差函数与收敛问题。
3. 跨领域应用探索
反向传播不仅用于图像识别、语言建模;
他曾将其用于宏观经济预测、政策建模、能源系统管理等任务;
强调神经网络是“通用学习系统”,其潜力不限于生物模拟。
为何被忽视?——算法传播与科学生态的反思
尽管 Werbos 是反向传播算法的原创者,他的贡献长期未被广泛承认,背后也映射出科学传播的一些现实逻辑:
原因 | 描述 |
---|---|
学术主流路径不同 | 1970年代 AI 偏向符号主义,对联结主义兴趣不高 |
缺乏推广机制 | 没有后续大规模实验、合作团队支持 |
计算环境受限 | 深度模型无法获得实证成功,难以吸引注意力 |
Hinton 的重新发明 | 1986年 Hinton 团队用更系统方式、图示与实验将反向传播传播开来 |
Werbos 在 1980s-1990s 多次强调自己是原始提出者,也曾与 Hinton 交流,但他本人更关注算法的跨学科推广。
重新定位:从遗忘中浮现的核心人物
今天的 AI 研究越来越意识到历史的重要性。Werbos 的工作不仅是反向传播的开端,更代表一种“系统工程视角的人工智能路径”。
关键词 | 意义 |
---|---|
有序导数 | 通用反馈学习机制,与控制论相通 |
多层网络 | 远早于 Hinton 使用多层结构建模复杂任务 |
通用建模工具 | 反向传播用于预测、控制、分类、优化等多种情境 |
他的思维方式,更像是将动态系统建模、智能控制与自适应机器融合为一体。这种跨学科的深度,也预示着反向传播之所以重要,不只是因为它能让 AI 胜任某项任务,而是它是一个“学习系统”的结构性解法。
算法的历史也是思想的历史
Paul Werbos 写下这本书的初衷,不仅仅是为了证明“我先提出了反向传播”,更是想说明:
“人类将需要一种统一的学习系统,不只为了分类图像,也为了理解世界、建模政策,甚至控制机器人。反向传播只是这个系统的开始。”
如果说 Hinton 为深度学习筑起高楼,那么 Werbos 则在几十年前就悄悄打好了地基。