说说一文读懂人工智能，机器学习，深度学习，神经网络，Transformer（学习笔记）

这两天一直在研究这个话题，踩了几个坑，把遇到的东西整理成文，供有需要的朋友参考。

一、逐个定义 + 各自包含内容

1. 人工智能 AI（最大范畴）

定义：让机器具备感知、推理、决策、理解、创造等类人智能的技术总称。
包含内容

1. 传统人工智能（非机器学习）

符号推理、规则系统、专家系统、搜索算法、博弈算法
知识图谱（规则推理）、自动逻辑证明

1. 现代人工智能（机器学习方向）

传统机器学习
深度学习

1. 其他分支

模糊控制、进化算法（遗传算法）、机器人控制、多智能体

2. 机器学习 ML（AI 的子集，实现AI的主流方法）

定义：不硬写死规则，让机器从数据中自动学规律，从而完成预测、分类、决策。
包含内容

1. 传统机器学习（非神经网络）

回归：线性回归、岭回归
分类：逻辑回归、SVM、朴素贝叶斯、KNN
聚类：K-Means、DBSCAN
树与集成：决策树、随机森林、XGBoost、LightGBM
降维：PCA

1. 深度学习（机器学习的子集）

各种神经网络模型与训练方法

3. 深度学习 DL（机器学习的子集）

定义：利用多层堆叠的深度神经网络，自动提取高阶特征，处理复杂大数据。
包含内容

1. 各类神经网络架构

MLP全连接网络
CNN卷积网络（图像）
RNN/LSTM/GRU（早期时序、文本）
GAN、VAE（生成模型）
GNN图神经网络
Transformer（大模型、多模态核心）
新架构：Mamba、RetNet

1. 配套技术

预训练、微调、批量归一化、优化器、反向传播、RLHF

4. 神经网络 NN（深度学习的底层载体）

定义：模仿人脑神经元连接，由多层节点+权重组成的计算网络。
包含内容

1. 基础结构：神经元、激活函数、隐藏层、全连接层
2. 经典网络结构

MLP 全连接神经网络
CNN 卷积神经网络
RNN 循环神经网络
LSTM/GRU
GNN、GAN
Transformer

本质：所有深度学习 = 训练各种深层神经网络

5. Transformer（神经网络里的一种具体结构）

定义：2017年提出，以自要注意力机制为核心的新型神经网络结构。
包含/衍生内容

核心组件：自要注意力、多头要注意力、前馈网络、位置编码
三大范式：

Encoder 双向：BERT类（理解）

Decoder 自回归：GPT、Claude、千问、DeepSeek（生成）
Encoder+Decoder：翻译、多任务

优化变种：MoE混合专家、长文本Transformer、多模态Transformer

二、层级从属关系（核心链条，必记）

[
\boldsymbol{人工智能 \supset 机器学习 \supset 深度学习 \supset 神经网络 \supset Transformer}
]

1. AI 包含一切智能技术（规则AI + 机器学习）
2. 机器学习是AI的一大分支，靠数据学习
3. 深度学习是机器学习的子集，用深层网络
4. 神经网络是深度学习的基础骨架
5. Transformer 只是众多神经网络中的一种（现在最强、做大模型专用）

三、通俗大白话关联

1. 人工智能：最大筐，只要机器变聪明都算
2. 机器学习：不用写死规则，靠数据自己学
3. 深度学习：层数十分多的“高级神经网络学习”
4. 神经网络：一套模仿人脑的计算网络（深度学习的容器）
5. Transformer：神经网络里最适合文本、长上下文、通用智能的一款结构；现在所有大模型：ChatGPT、Claude、Gemini、通义千问、DeepSeek 全部基于它。

四、极简一句话总结

AI：范围最大
机器学习：AI里“靠数据学习”的路线
深度学习：机器学习里“用深层神经网络”的路线
神经网络：深度学习的模型本体
Transformer：神经网络中，当前大模型的核心底座。

就写这么多吧，内容比较基础，适合入门回顾。有补充的地方欢迎留言一起完善。

小丸子博客