当前位置：网站首页>图书 > 正文 >>

ChatGPT的基本原理与核心算法

图书信息

作者	邓志东
出版社	清华大学出版社
ISBN	9787302682639
出版时间	2025-03-01
字数	19.8万
分类	科技,计算机,网络,软件系统

读书简介

能够模仿人类语言智能与思维，具有世界一般性知识的ChatGPT，启了通用人工智能的新时代，正成为引爆第四次工业革命的火种。本书是第一本体系化介绍ChatGPT基本原理与核心算法的教材及专业图书。全书共分5章：第1章为人工神经网络基础；第2章详细剖析了Transformer及其缘起，分析了视觉领域的Transformer算法；第3章综述了各种大型语言模型框架，分享了创建GPT系列模型的思想之旅；第4章重介绍了ChatGPT的预训练方法与微调算法，系统地阐述了强化学习基础与基于人类反馈的强化学习；第5章为ChatGPT的应用，包括上下文学习提示与思维提示，并讨论了智能涌现。

目录

作者简介

内容简介

前言

第1章　人工神经网络基础

1.1　引言

1.2　人工神经元模型

1.2.1　基准神经元模型：MP模型

1.2.2　第一代神经元模型：WSN模型

1.2.3　第二代神经元模型：RBF模型

1.2.4　第三代神经元模型：发放模型

1.3　人工神经网络模型

1.3.1　神经网络的基本概念与方法

1.3.2　前馈神经网络模型

1.3.3　深度卷积神经网络模型

1.3.4　反馈神经网络模型

1.3.5　递归神经网络模型

1.4　本章小结

第2章　从LSTM到Transformer

2.1　引言

2.2　递归神经网络：编码器-解码器框架

2.2.1　从前馈神经网络到递归神经网络

2.2.2　Elman网络：经典递归神经网络

2.2.3　长短期记忆网络

2.2.4　递归神经网络的编码器-解码器框架

2.3　递归神经网络的注意力与点积相似性

2.3.1　长短期记忆网络的注意力

2.3.2　点积相似性

2.4　Transformer模型

2.4.1　传统编码器-解码器框架下的Transformer网络结构

2.4.2　嵌入向量与位置编码

2.4.3　残差直连结构及前置归一化层

2.4.4　Transformer的核心结构单元：多头注意力机制与逐位置前馈神经网络

2.4.5　学习机制：层堆叠自监督学习与基于误差反向传播的监督微调

2.4.6　Transformer的主要特性

2.4.7　与递归神经网络的联系与区别

2.5　应用领域：从NLP扩展到CV

2.5.1　CV领域的Transformer

2.5.2　视觉目标检测与分割任务：DETR

2.5.3　图像分类任务：ViT

2.5.4　三维点云处理任务：Point Transformer

2.5.5　对比式语言-图像预训练模型：CLIP

2.5.6　其他视觉任务及展望

2.6　本章小结

第3章　GPT系列预训练大型语言模型

3.1　引言

3.2　大型语言模型的Transformer框架

3.2.1　前缀（编码器）-解码器架构的Transformer框架

3.2.2　编码器架构的Transformer框架

3.2.3　解码器架构的Transformer框架

3.3　混合式预训练大型语言模型

3.3.1　T5模型

3.3.2　GLM模型

3.4　判别式预训练大型语言模型

3.4.1　BERT模型

3.4.2　RoBERTa模型

3.5　GPT系列生成式预训练大型语言模型

3.5.1　GPT-1：利用生成式预训练改善语言理解

3.5.2　GPT-2：无监督多任务学习的语言模型

3.5.3　GPT-3：少样本学习的大型语言模型

3.5.4　GPT-4：图文多模态大型语言模型

3.6　本章小结

第4章　ChatGPT的大规模预训练与微调

4.1　引言

4.2　大型语言模型的大规模预训练

4.2.1　预训练任务与模型选择

4.2.2　大规模预训练方法

4.2.3　生成式Transformer大型语言模型的对比式自监督学习

4.3　ChatGPT预训练模型的微调

4.3.1　强化学习基础

4.3.2　预训练大型语言模型的指令调优与RLHF调优

4.3.3　初始动作器：SFT模型的监督训练

4.3.4　初始评判器：RM模型的监督训练

4.3.5　A2C框架下的PPO-ptx强化学习：策略更新与价值对齐

4.4　性能评估

4.4.1　与人类意图及价值观对齐的性能评估

4.4.2　定量评测

4.5　ChatGPT规模化与工程化中的关键技术

4.5.1　大规模高质量数据资源的准备

4.5.2　大规模分布式预训练与微调所需的AI算力支撑

4.6　本章小结

第5章　ChatGPT的应用

5.1　引言

5.2　提示工程

5.2.1　预训练-提示微调范式

5.2.2　零样本提示与少样本提示

5.3　上下文学习提示

5.3.1　语言模型的元学习

5.3.2　上下文学习提示

5.4　思维链提示

5.4.1　思维链提示的两种方式

5.4.2　少样本思维链提示

5.4.3　零样本思维链提示

5.4.4　自动少样本思维链提示

5.5　思维树提示

5.5.1　思维树提示的基本思想

5.5.2　思维树：大型语言模型深思熟虑的问题求解方法

5.5.3　分析与讨论

5.6　智能涌现能力

5.6.1　智能涌现能力的定义

5.6.2　涌现能力发生的几种情形

5.6.3　涌现能力的分析与展望

5.7　本章小结

书籍类型：清华大学出版社,科技,计算机,网络,软件系统,

推荐图书

特征工程入门与实践（（土）锡南·厄兹代米尔）
中华学生百科全书——控制论与自动化（读书堂）
姚明（1）（读书堂）
女性排毒与食补（元秀编著）
Orlando Furioso: Bilingual Edition (English – Italian)（Ludovico Ariosto）
数据资本论（[美]阿莱克斯·彭特兰[美]亚历山大·利普顿 [美]托马斯·哈德乔诺）
Gone With the Windsors（Laurie Graham）
家庭营养套餐（《健康餐桌》编委会编）