当前位置:网站首页>图书 > 正文 >>

大语言模型极速入门:技术与应用

图书信息

作者董政
出版社机械工业出版社
ISBN9787111783541
出版时间2025-07-10
字数23.0万
分类科技,计算机,网络,计算机理论与教程

读书简介

本书将带读者走大语言模型的神奇世界,即使读者没有深厚的技术背景,也能轻松理解。本书首先从基础概念讲起,详细介绍大语言模型及其技术发展脉络。着探讨大语言模型在日常生活中的广泛应用,比如智能客服、文本自动生成、语言翻译等。此外,本书还会客观地分析大语言模型的局限性和可能面临的挑战,例如准确性问题、伦理考虑等,帮助读者形成全面而理性的认识。

目录

前言

CHAPTER 1 第1章 早期的神经语言模型

1.1 神经网络模型之前的时代

1.1.1 基于规则的方法面临的困难

1.1.2 借助统计方法的力量

1.1.3 朴素统计模型的极限

1.2 神经网络如何理解语言

1.2.1 化解统计方法的维度灾难

1.2.2 神经网络模型如何学习

1.2.3 困惑度——量化评估语言模型的预测能力

1.2.4 词嵌入——从词汇到可计算的数值向量

CHAPTER 2 第2章 深度学习时代的自然语言处理

2.1 擅长处理文本序列的循环神经网络

2.1.1 保持记忆的循环连接

2.1.2 控制记忆的门控单元

2.1.3 自然语言的编码器和解码器

2.2 Transformer“只需要注意力”

2.2.1 注意力机制的起源

2.2.2 “只需要注意力”

2.2.3 像检索数据库一样查看记忆

2.2.4 使用Transformer对语言进行编码和解码

CHAPTER 3 第3章 预训练语言模型的兴起

3.1 通过预训练提升语言模型能力

3.1.1 预训练——视觉深度学习模型的成熟经验

3.1.2 第一代GPT模型

3.1.3 GPT和BERT——选择不同道路

3.2 语言模型如何胜任多种任务

3.2.1 多任务模型先驱的启示

3.2.2 GPT-2模型

3.2.3 适用于多种语言的字节对编码

3.2.4 高质量的WebText数据集

CHAPTER 4 第4章 大语言模型能力涌现

4.1 学会如何学习——元学习和语境学习能力

4.1.1 GPT-3模型

4.1.2 稀疏注意力——大模型的高效注意力机制

4.1.3 语境学习能力显现

4.2 模型规模和能力的缩放定律

4.2.1 龙猫法则

4.2.2 能力涌现现象

4.3 大语言模型学会写代码

4.3.1 Codex模型——程序员的智能助手

4.3.2 检验语言模型的编程能力

CHAPTER 5 第5章 服从指令的大语言模型

5.1 InstructGPT——更听话的语言模型

5.1.1 从人类反馈中学习

5.1.2 近端策略优化算法

5.2 指令微调方法

5.3 拒绝采样——蒸馏提纯符合人类偏好的模型

5.4 从AI反馈中学习

CHAPTER 6 第6章 开源大语言模型

6.1 GPT-J和GPT-Neo——开源社区的率先探索

6.2 Pile开源大语言模型训练数据集

6.3 开源“羊驼”LLaMA模型

6.3.1 SwiGLU——改进神经网络激活函数

6.3.2 适合更长文本的RoPE

6.3.3 分组查询注意力

6.3.4 评估数据污染问题

6.3.5 更听话的Llama 2模型

6.4 ChatGLM——国产大语言模型的开源先锋

6.4.1 研发历程

6.4.2 语言模型的架构选择

6.4.3 GLM-130B模型

6.4.4 悟道语料库

CHAPTER 7 第7章 探秘大语言模型的并行训练

7.1 并行训练一瞥

7.2 GPipe流水线

7.3 PipeDream流水线

7.3.1 高吞吐率的PipeDream-2BW流水线

7.3.2 节省内存的PipeDream-Flush流水线

CHAPTER 8 第8章 大语言模型应用

8.1 常见应用场景

8.2 利用外部知识库打败“幻觉”

8.2.1 检索增强生成

8.2.2 句子编码器模型——编码知识库

8.2.3 小世界模型——实现快速知识检索

8.2.4 混合检索——重拾传统检索技术

8.3 思维链——思维过程的草稿纸

8.4 使用工具拓展能力范围

8.4.1 学习如何使用外部工具

8.4.2 ReAct——连续自主行动的智能体

8.5 定制专属的智能体

CHAPTER 9 第9章 大语言模型前沿展望

9.1 多模态大模型——有眼睛和耳朵的大语言模型

9.1.1 视觉语言模型——从CLIP模型到火烈鸟模型

9.1.2 Llama 3模型的语音输入输出能力

9.2 关于安全和隐私的挑战

9.2.1 不同类型的安全和隐私问题

9.2.2 如何应对安全和隐私风险

9.3 大语言模型距离强人工智能还有多远

9.3.1 世界模拟器——Sora视频生成模型

9.3.2 JEPA——世界模型

9.3.3 草莓模型o1——学会“深思熟虑”

中英文对照表

参考文献

推荐图书