当前位置：网站首页>图书 > 正文 >>

大语言模型极速入门:技术与应用

图书信息

作者	董政
出版社	机械工业出版社
ISBN	9787111783541
出版时间	2025-07-10
字数	23.0万
分类	科技,计算机,网络,计算机理论与教程

读书简介

本书将带读者走大语言模型的神奇世界，即使读者没有深厚的技术背景，也能轻松理解。本书首先从基础概念讲起，详细介绍大语言模型及其技术发展脉络。着探讨大语言模型在日常生活中的广泛应用，比如智能客服、文本自动生成、语言翻译等。此外，本书还会客观地分析大语言模型的局限性和可能面临的挑战，例如准确性问题、伦理考虑等，帮助读者形成全面而理性的认识。

目录

前言

CHAPTER 1 第1章早期的神经语言模型

1.1 神经网络模型之前的时代

1.1.1 基于规则的方法面临的困难

1.1.2 借助统计方法的力量

1.1.3 朴素统计模型的极限

1.2 神经网络如何理解语言

1.2.1 化解统计方法的维度灾难

1.2.2 神经网络模型如何学习

1.2.3 困惑度——量化评估语言模型的预测能力

1.2.4 词嵌入——从词汇到可计算的数值向量

CHAPTER 2 第2章深度学习时代的自然语言处理

2.1 擅长处理文本序列的循环神经网络

2.1.1 保持记忆的循环连接

2.1.2 控制记忆的门控单元

2.1.3 自然语言的编码器和解码器

2.2 Transformer“只需要注意力”

2.2.1 注意力机制的起源

2.2.2 “只需要注意力”

2.2.3 像检索数据库一样查看记忆

2.2.4 使用Transformer对语言进行编码和解码

CHAPTER 3 第3章预训练语言模型的兴起

3.1 通过预训练提升语言模型能力

3.1.1 预训练——视觉深度学习模型的成熟经验

3.1.2 第一代GPT模型

3.1.3 GPT和BERT——选择不同道路

3.2 语言模型如何胜任多种任务

3.2.1 多任务模型先驱的启示

3.2.2 GPT-2模型

3.2.3 适用于多种语言的字节对编码

3.2.4 高质量的WebText数据集

CHAPTER 4 第4章大语言模型能力涌现

4.1 学会如何学习——元学习和语境学习能力

4.1.1 GPT-3模型

4.1.2 稀疏注意力——大模型的高效注意力机制

4.1.3 语境学习能力显现

4.2 模型规模和能力的缩放定律

4.2.1 龙猫法则

4.2.2 能力涌现现象

4.3 大语言模型学会写代码

4.3.1 Codex模型——程序员的智能助手

4.3.2 检验语言模型的编程能力

CHAPTER 5 第5章服从指令的大语言模型

5.1 InstructGPT——更听话的语言模型

5.1.1 从人类反馈中学习

5.1.2 近端策略优化算法

5.2 指令微调方法

5.3 拒绝采样——蒸馏提纯符合人类偏好的模型

5.4 从AI反馈中学习

CHAPTER 6 第6章开源大语言模型

6.1 GPT-J和GPT-Neo——开源社区的率先探索

6.2 Pile开源大语言模型训练数据集

6.3 开源“羊驼”LLaMA模型

6.3.1 SwiGLU——改进神经网络激活函数

6.3.2 适合更长文本的RoPE

6.3.3 分组查询注意力

6.3.4 评估数据污染问题

6.3.5 更听话的Llama 2模型

6.4 ChatGLM——国产大语言模型的开源先锋

6.4.1 研发历程

6.4.2 语言模型的架构选择

6.4.3 GLM-130B模型

6.4.4 悟道语料库

CHAPTER 7 第7章探秘大语言模型的并行训练

7.1 并行训练一瞥

7.2 GPipe流水线

7.3 PipeDream流水线

7.3.1 高吞吐率的PipeDream-2BW流水线

7.3.2 节省内存的PipeDream-Flush流水线

CHAPTER 8 第8章大语言模型应用

8.1 常见应用场景

8.2 利用外部知识库打败“幻觉”

8.2.1 检索增强生成

8.2.2 句子编码器模型——编码知识库

8.2.3 小世界模型——实现快速知识检索

8.2.4 混合检索——重拾传统检索技术

8.3 思维链——思维过程的草稿纸

8.4 使用工具拓展能力范围

8.4.1 学习如何使用外部工具

8.4.2 ReAct——连续自主行动的智能体

8.5 定制专属的智能体

CHAPTER 9 第9章大语言模型前沿展望

9.1 多模态大模型——有眼睛和耳朵的大语言模型

9.1.1 视觉语言模型——从CLIP模型到火烈鸟模型

9.1.2 Llama 3模型的语音输入输出能力

9.2 关于安全和隐私的挑战

9.2.1 不同类型的安全和隐私问题

9.2.2 如何应对安全和隐私风险

9.3 大语言模型距离强人工智能还有多远

9.3.1 世界模拟器——Sora视频生成模型

9.3.2 JEPA——世界模型

9.3.3 草莓模型o1——学会“深思熟虑”

中英文对照表

参考文献

书籍类型：机械工业出版社,科技,计算机,网络,计算机理论与教程,

推荐图书

高考英语历年真题核心高频688词汇（合肥新东方高考英语教研中心）
00后整顿职场指南（赵雪）
Emergency Admissions（Kit Wharton）
内部审计工作指南:穿透实务核心（郭长水,纪新伟主编）
ARM 9嵌入式开发基础与实例进阶（光盘内容另行下载，地址见书封底）（冯新宇）
女性排毒与食补（元秀编著）
简单易学的基金投资（杨天南,孙振曦,贾泽亮等）
谦逊的问讯:以询问开启良好关系的艺术(原书第2版)（(美)埃德加·沙因,(美)彼得·沙因）