论文翻译：Large Language Models for Education: A Survey

大型语言模型在教育领域的应用：一项综述
- 摘要
- [1 引言](#1 引言)
- [2. 教育中的LLM特征](#2. 教育中的LLM特征)
- - [2.1. LLMs的特征](#2.1. LLMs的特征)
  - [2.2 教育的特征](#2.2 教育的特征)
  - - [2.2.1 教育发展过程低进入门槛。](#2.2.1 教育发展过程低进入门槛。)
    - [2.2.2. 对教师的影响](#2.2.2. 对教师的影响)
    - [2.2.3 教育挑战](#2.2.3 教育挑战)
  - [2.3 LLMEdu的特征](#2.3 LLMEdu的特征)
  - - [2.3.1 "LLMs + 教育"的具体体现](#2.3.1 "LLMs + 教育"的具体体现)
    - [2.3.2 "LLMs + 教育"的影响](#2.3.2 "LLMs + 教育"的影响)
- [3 如何逐步将LLMs整合到教育中](#3 如何逐步将LLMs整合到教育中)
- - [3.1 教育领域采用LLMs的原因](#3.1 教育领域采用LLMs的原因)
  - [3.2 融合策略](#3.2 融合策略)
- [4 LLMEdu的关键技术](#4 LLMEdu的关键技术)
- [5 LLMEdu的实施](#5 LLMEdu的实施)
- - [5.1 由LLMs赋能的教育](#5.1 由LLMs赋能的教育)
  - [5.2 数学中的LLMs](#5.2 数学中的LLMs)
- [6 问题与挑战](#6 问题与挑战)
- - [6.1 主要问题](#6.1 主要问题)
  - [6.2 主要挑战](#6.2 主要挑战)
- [7 结论](#7 结论)

大型语言模型在教育领域的应用：一项综述

摘要

人工智能（AI）对传统教育产生了深远的影响。近年来，大型语言模型（LLMs）已经被越来越多地应用于各种场景，例如自然语言处理、计算机视觉、语音识别和自动驾驶。LLMs也被应用于包括推荐、金融、政府、教育、法律事务以及金融等多个领域。作为强大的辅助工具，LLMs融合了深度学习、预训练、微调和强化学习等多种技术。将LLMs用于智能教育（LLMEdu）已经成为全球各国的重要战略方向。虽然LLMs在提高教学质量、改变教育模式和调整教师角色方面展现出巨大潜力，但这些技术仍然面临若干挑战。在本文中，我们对LLMEdu进行了系统性回顾，重点关注当前技术、挑战和未来发展。我们首先总结LLMEdu的现状，然后介绍LLMs和教育的特点，以及将LLMs整合到教育中的优势。我们还回顾了将LLMs整合到教育行业的进程，以及相关技术的介绍。最后，我们讨论了LLMEdu面临的挑战和问题，以及LLMEdu未来优化的前景。

1 引言

近年来，得益于Web 3.0 $38$ 、行为互联网（IoB） $103$ 、数据挖掘 $35, 48, 68$ 、深度学习 $122$ 以及语言处理技术的不断进步，人工智能（AI）发展迅速 $73, 111, 139$ 。大型语言模型（LLMs）在优化预训练模型和持续调整相关技术的过程中，在各个行业都展现出了卓越的性能 $25, 132$ 。LLM主要基于多种AI技术，例如自然语言处理（NLP），用于理解和生成大量文本 $41$ 。它们在大规模语料库上执行自监督学习，以获得语言的统计规律 $31$ ，然后将其转换为逻辑自然语言文本。其基本框架如图1所示。LLMs已经证明了强大的通用性和逻辑推理能力，这使得它们在包括金融、教育 $36$ 、法律 $58$ 、机器人技术 $131$ 和政府事务 $20, 32, 126$ 在内的各个行业中广泛作为模型即服务（MaaS） $37$ 。为大多数数字公司创造基于场景的用户体验是一个关键优势，这也恰好是LLM的发展需求。

教育的概念已经存在了数个世纪，可以追溯到生物学起源理论。在原始社会中，教育仅限于使用基本的生产工具，而古代社会则依赖于口头传播和实践来向后代传授知识 $66$ 。随着现代社会科学技术的发展，教育和人工智能（AI）已经变得不可分割 $22$ ，包括智能教师助手、语音助手 $77, 92$ 、AI写作创作平台等。以智能革命 $15$ 为代表的第四次工业革命，可以在大型语言模型（LLMs）的帮助下，将教育行业提升到一个新的水平。教育本质上是关于知识传递、即时反馈和情感互动的。LLMs主要增强了教育中的"即时反馈"过程。它们有潜力通过为学生提供个性化、适应性的学习体验来彻底改变教育行业。通过将知识融入它们的模型中，LLMs可以逐渐建立对世界的深刻理解，在某些方面超越人类学习。它们能够生成高质量的文本内容，理解自然语言，提取信息，并在各个领域回答问题 $71$ 。LLMs还能进行复杂的数学推理 $123$ ，这有助于教育部门展示它们在自我监督、智能适应性教学和多模态互动 $26$ 方面的优势。凭借适应个体学生需求和学习风格的能力，LLMs可以提供更有效、更具吸引力的学习体验。

研究空白 ：

已经有许多教育工作者和研究人员对教育中的人工智能（AI）进行了许多思考。以下是一些例子：一些研究已经进行了关于教育中AI范式转变的研究 $85$ ，以及AI在管理、教学和学习中的影响 $21$ 。一些研究解释了教育中的AI并展示了它们的工作原理 $72$ 。由于AI的快速迭代和更新，产生了许多新的教育AI技术，但对新兴技术手段的总结和分析还不够。作为这些技术之一的大型语言模型（LLMs），显著地将AI发展推向了一个新的阶段。LLMs是支持智能教育的最新技术手段。教育与LLMs的整合特别凸显了LLMs的发展和应用特点。虽然已有对教育领域LLMs的简要回顾 $36$ ，但许多LLMEdu的特点和关键技术尚未详细讨论。

贡献：

为了检验LLMEdu（大型语言模型教育）的潜力并促进其发展，本文提供了对LLMEdu发展过程和技术结构的深入分析，并形成了全面的总结。这篇综述旨在帮助读者更深入地理解LLMEdu，并鼓励我们发明和考虑LLMEdu的应用。具体贡献如下：

• 我们更深入地探讨了LLMs与教育之间的联系，旨在实现智能教育。

• 我们通过将LLMs应用于教育的过程以及LLMs的关键技术，展示了LLMEdu的发展过程。

• 我们从LLMs增强教育的角度审视LLMEdu的实施情况，专注于探索LLMEdu的发展潜能。

• 我们详细强调了LLMEdu中存在的问题和挑战，旨在激发一些洞见、批判性思维和探索。

路线图：在第2节中，我们简要介绍了LLMs和教育行业的特征，以及LLMs整合到教育中的特征。在第3节中，我们对将LLMs应用于教育的过程进行了深入分析。在第4节中，我们解释了与LLMs相关的关键技术。在第5节中，我们从用LLMs增强教育的角度提供了LLMEdu的实施情况。在第6节中，我们强调了LLMEdu中的一些主要问题和挑战。最后，在第7节中，我们总结了LLMEdu，并对未来LLMs的发展提出了期望。表1描述了本文中的一些基本符号。

2. 教育中的LLM特征

在本节中，我们讨论了LLMs的关键特征、教育的关键特征、传统教育的局限性以及LLMs与教育之间的结合方式，如图2所示。

展示：

跨学科教学，精确识别个性化需求，引导学习，提高教学质量和效果

影响：

个性化学习支持，个性化评估和反馈，广泛的学科知识覆盖

实时问题解决和辅导，机会的扩展，提供学习资源和工具

批判性思维和解决问题的技能，教育者的专业学习，教育的可达性和包容性

2.1. LLMs的特征

大规模。LLMs中的"大型"一词可以从两个方面来解释。首先，LLMs拥有巨大的参数数量，这些参数的数量在短短几年内从十亿级增长到万亿级，呈现出指数级的增长。例如，2018年谷歌的BERT拥有3亿个参数，2019年的GPT-2拥有15亿个参数，而2021年的GPT-3拥有1750亿个参数 $137, 101$ 。到了2022年，Switch Transformer模型达到了令人印象深刻的1.6万亿个参数 $67, 100$ 。此外，LLMs在训练过程中使用了来自不同来源的大量数据，包括网络、学术文献和对话。这种大规模的数据语料库使模型能够学习和表示语言中的复杂模式和关系，从而在各种自然语言处理（NLP）任务中提高了性能 $107$ 。

通用性。LLMs有广泛的应用范围 $88$ 。它们不仅在特定领域表现出色，还擅长处理包括自然语言处理（NLP）、计算机视觉（CV）、语音识别，甚至是跨模态任务的各种类型的任务。换句话说，LLMs拥有强大的泛化能力，而实现这种能力需要在大量数据上进行训练。

预训练和微调 $27, 47, 132$ 。模型训练过程的核心在于先进行预训练，然后进行微调。最初，在大规模未标记的文本语料库上执行预训练，以获得模型的基本语言知识。随后，针对特定领域的特定任务进行微调，以更好地理解和生成该领域特有的语言，例如法律、教育或医疗文本。

突现能力：不可预测性 $88$ 。LLMs的突现能力指的是它们在没有明确的人为干预下生成连贯且逻辑一致的文本的能力，这是它们从训练过程中学到的。当数据量达到足够大的规模时，模型的学习和反馈能力可能会大幅度提升，从而带来性能的改善。

碎片化 $93$ 。当前的人工智能领域以不同行业的多样化商业场景为特征，导致对人工智能的需求变得分散和多样化。人工智能模型的开发过程涉及多个阶段，包括开发、超参数调整、优化以及为了最终应用而进行的迭代部署。每个阶段都需要大量的投资，在高成本情况下，满足定制化的市场需求可能面临挑战。

突破准确性限制的潜力。深度学习的发展历时已久。随着神经网络设计技术的成熟和趋同，通过架构变化提高准确性似乎已经达到了瓶颈。然而，LLMs的发展表明，扩大模型和数据的规模可以帮助突破准确性的限制。研究实验一贯地证明了扩大模型和数据规模可以提高模型的准确性 $104$ 。高复杂性和投资成本。LLMs正变得越来越复杂，单步计算时间增长了10倍以上 $6$ 。对于高流量业务来说，曾经只需要几个小时的训练实验现在需要几天时间，期望测试能在一天之内完成已成为基本要求 $75$ 。此外，训练一个通用的大型模型成本很高，如果包括后续的优化、更新和部署，成本会更高。例如，ChatGPT的核心基础设施，Azure AI，需要近10亿美元的投资 $87$ 。此外，ChatGPT对数据处理所使用的GPU芯片数量有很高的要求 $82$ 。

2.2 教育的特征

根据其定义，教育是一种有意识和有目的的社会实践活动，旨在培养个体。其根本特征是其过程导向的性质，表明教育通过一系列步骤存在并发展。以个体为重点，教育的最终目标是促进他们全面和持久的成长。教育包括知识传递、即时反馈和情感互动。错误纠正、知识强化和快速培训巩固是教育行为的一些部分。此外，教育系统非常复杂，以其学科的独特性、多样化的需求和复杂的互动为标志。

2.2.1 教育发展过程低进入门槛。

一方面，开办教育机构的可及性相对容易 $17$ ，这导致教师和机构的运营和投资成本较低。然而，这也导致了教师资格的不平衡，助长了教育培训行业的混乱、误导性广告、教师头衔的夸大以及低效的线下一对一教学等问题。这些问题随后导致了投诉的增加。另一方面，学习者接受教育的障碍减少，促进了不同地区教育机会的更大平等，并更加强调了受教育的权利。

大容量 $60$ 。教育行业包含了大量的学生和教师，这使得考虑庞大人口的影响变得至关重要。此外，存在着多样化的教育环境，包括公立学校以及众多的私立教育机构。有大量的教育材料可供使用，互联网的出现使得获取教育资源变得更加容易。这种发展超越了传统基于教科书的教学的限制，打破了信息障碍，扩大了教育的视野。

体系完善。教育的扩展得到了经济发展的推动 $56$ ，导致教育领域的投资激增。这种增长涵盖了不同层次的广泛教育机构。此外，教育系统包括了多种形式的教育，如社会生活教育、家庭教育和学校教育。它还包括了包括数学、语言和体育在内的多种学科。

在线教育的兴起 $55$ 。自20世纪90年代末以来，新兴技术在教育行业中取得了显著进展 $18$ 。这种转变推动教育经历了多个阶段，包括传统教育、数字教育、基于互联网的教育、基于移动设备的教育和智能教育。信息技术的发展在促进教育发展方面发挥了关键作用，通过克服时间和空间的限制，使知识获取变得更加方便和快速。

2.2.2. 对教师的影响

教学方法的发展。数字教育提供了更广泛的教学方法和工具 $28$ 。它要求教师适应并熟练使用这些创新的方法和技术。这包括利用在线学习平台、教育应用程序和虚拟教室有效地传授知识和与学生互动。为了满足学生多样化的学习需求，教师必须熟悉并精通使用这些技术。

个性化和自主学习支持。数字教育有潜力更好地支持个性化和自主学习 $19$ 。教师可以利用技术洞察学生的学习风格、兴趣和需求。他们也提供定制的教学内容和学习计划。教育中的这种转变将使教师扮演更多的指导者和导师角色。他们鼓励学生在学习和自我发展中扮演积极的角色。

数据驱动的教学决策。数字教育产生了大量的学习数据，包括学生的表现、兴趣和进步 $138$ 。教师可以利用这些数据做出明智的教学决策并提供个性化指导。通过分析学生的数据，教师可以识别困难和弱点的领域，并提供有针对性的支持和反馈，帮助学生克服这些挑战，提高学习成果。

协作和跨境教学。数字教育有能力打破地理障碍，使教师能够与全世界的学生进行跨境教学和协作。这允许教育者之间共享教学资源、经验和最佳实践，促进教学界内部的专业发展和协作。

培养21世纪技能。在数字时代，学生发展诸如创造性思维、数字素养、协作和解决问题等技能至关重要 $46$ 。教师在指导学生培养这些技能并提供相关的教育支持和指导方面发挥着至关重要的作用。通过与学生一起探索和应用新技术，教师可以培养创新精神和适应性，为学生在不断变化的数字环境中取得成功做好准备。

教师在教育的数字化转型中不可或缺，因为他们在塑造学生的学术、情感和社会发展方面发挥着多方面的作用。虽然技术可以提供广泛的知识和资源，但它不能取代教师提供的个性化指导、情感支持和基于价值观的教育。教师的专业知识、人际关系和教育智慧仍然是教育数字化转型中必不可少的元素，确保学生接受全面的教育，为他们在21世纪取得成功做好准备。

2.2.3 教育挑战

个性化学习需求。在当代教育中，学生有着多样化的学习需求、风格、兴趣和志向。传统的一刀切方法可能无法满足每个学生的独特需求，个性化学习对于有效解决这些差异至关重要。因此，实施个性化学习是教育工作者和管理者必须解决的重大挑战，以确保每个学生都能接受到适合其个人需求和能力的教育。

教育资源不足。尽管技术取得了进步，但仍有地区学校缺乏现代技术基础设施，导致数字鸿沟，阻碍了学生获取在线学习和数字教育资源。此外，全球学生人数持续增长，给教育行业带来了巨大压力。一些地区面临教育资源不足的挑战，包括教师、教室和学习材料，导致教育机会的不平等。

教育质量和标准。教育质量的不一致性构成了重大挑战。在某些地区，以考试为导向的教育方法可能导致过分关注标准化测试，结果导致课程简化，缺乏对学生个人兴趣和发展的支持。确保高质量、标准化的教育对于提高学生的学术表现和整体素质至关重要。这可以通过实施一个全面的课程来实现，该课程培养批判性思维、创造力和解决问题的技能，同时也为学生的独特需求和兴趣提供个性化支持。

多样化的教育技术。大数据、人工智能、虚拟现实和其他教育技术的整合有潜力彻底改变教育行业。然而，它也带来了新的挑战，如管理、安全和隐私问题。有效整合和利用这些技术对于增强学习体验和实现最佳教育成果至关重要。这需要一个深思熟虑的策略，考虑到教育行业的独特需求和限制。

实施新教育概念的挑战。技术和经济的快速发展，加上生活水平的提高和质量的改善，导致了新的教育概念的出现。其中之一就是"科学技术工程艺术数学（STEAM）"教育，它强调跨学科方法和实践操作。然而，实施这些前沿的教育概念和培养下一代具有社会意识的人才，对教育行业构成了重大挑战。需要有效的策略和创新方法来应对这些挑战，确保学生能够很好地适应不断变化的世界。

2.3 LLMEdu的特征

人工智能与教育行业的融合正在迅速加速 $39, 61, 105$ ，这一过程改变了教学方法并提高了学习成果。从计算机辅助教学到个性化的适应性学习和内容生成，人工智能已经彻底改革了教育领域，满足了不同年龄组和学科领域的需要。在智能时代，教育的主要目标是将知识转化为智能，并培养智能个体。以自然语言技术为核心的大型语言模型（LLMs）与教育行业的发展完美对接，并适应了智能教育中的广泛变化。这些模型有潜力支持和增强学习体验的各个方面，使教育变得更加可及、吸引人和有效。

2.3.1 "LLMs + 教育"的具体体现

整合LLM到教育中的原因如图3所示。

Figure 3:Reasons for integrating LLM into education.

跨学科教学 $74$ 。用大量数据训练的LLMs在知识整合上具有显著优势。它们能够根据不同学科提供多样化的学习支持，并拥有卓越的跨学科能力。例如，"Ziyue"大型模型 $1$ 优先采用"场景优先"的方法，而iFLYTEK的"Spark Desk" $2$ 能在包括数学、英语口语练习、作文批改等多个领域进行类似人类的互动学习。这些模型有潜力彻底改变我们的学习和教学方式 $24$ 。

精确识别个性化需求。LLMs具备高级的语言理解和生成能力，使它们能够提供适应不同用户年龄、学习阶段和学习环境的适应性学习指导。例如，基于LLMs的iFlytek学习机可以为传统学科提供定制化教学，如口语教学、中英文作文批改、互动辅导数学等，为学生提供个性化的一对一辅导体验。此外，学习机还可以通过一对一对话帮助家长回答问题、提供建议，并协助亲子沟通、亲子互动、行为习惯等。

引导式学习。LLMs正朝着更类似人类的方式转变，在不同场景中提供真实的对话式教学体验，而不仅仅是给出答案。这在物理和数学等科目中尤为明显，LLMs模拟教师的角色，提出问题以鼓励批判性思维和独立探索 $53$ 。通过培养自学环境，LLMs可以帮助学生发展解决问题的技能，成为更有效的学习者 $79$ 。例如，OpenAI与教育组织Khan Academy合作开发了基于LLM的教育工具Khanmigo。当学生完成练习时，Khanmigo可以通过提出许多问题引导他们自己找到答案。

三种模式的整合。基于工具的、基于伙伴的和基于信息的 $30, 52, 118$ 。基于工具的模式主要涉及使用数据构建知识库，成为大规模的查询库。基于伙伴的模式以虚拟教师和助手为例，通过类似人类的对话提供虚拟教学和在线帮助。基于信息化的模式主要指的是教育信息化，加速了"互联网+教育"平台的发展。

2.3.2 "LLMs + 教育"的影响

"LLMs + 教育"将产生深远和深刻的影响。以下是可以观察到这些影响的10个领域，以及详细解释。

个性化学习支持。LLMs可以根据学生的个性化需求提供定制化的学习支持。通过深入理解学生的学习特点、兴趣和学习风格，LLMs可以为每个学生量身定制教学内容和学习计划。例如，在数学学习中，LLMs可以通过与学生对话，为他们在数学上的薄弱环节提供有针对性的指导，帮助他们克服困难，提高数学能力。LLMs可以设计自适应测试，根据学生的回答调整问题的难度，准确评估学生的知识水平，并确保他们在适当的水平上接受教育 $1$ 。

个性化评估和反馈。LLMs可以根据学生的学习表现提供个性化的评估和反馈 $59$ 。通过分析学生在学习过程中的答案、理解水平和错误模式，LLMs可以提供有针对性的评估结果和改进建议。例如，当学生在写作上遇到困难时，LLMs可以分析他们写作的结构、语法和表达，并提供详细的指导和建议，帮助学生提高写作技能 $2, 76$ 。一些基于OpenAI的LLM技术的商业辅助工具，如MagicSchool和Eduaide，可以参与评估学生的作业并提供反馈 $89$ 。

学科知识的广泛覆盖。LLMs拥有广泛的知识覆盖面，可以包含多个学科领域的知识内容 $69$ 。学生可以与LLMs进行对话，获取不同学科领域的知识和信息。例如，当学生在历史学习中遇到问题时，LLMs可以提供历史事件、人物和背景的详细解释和深入讨论，帮助学生更好地理解历史知识。据统计，最新模型拥有13万亿个精心挑选的预训练知识数据，相当于500万套四书五经。此外，在训练过程中还提取了1.8万亿个"知识片段" $14$ 。

跨学科学习。LLMs具有卓越的跨学科能力，使学生能够参与综合学习并培养跨学科思维技能 $110$ 。通过与LLMs的互动，学生可以从不同学科领域整合和应用知识。例如，在进行科学实验时，学生可以与LLMs进行对话，讨论实验原理、数据分析和科学推理，促进科学与数学、逻辑思维等学科的综合学习 $3$ 。

实时问题解决和辅导。LLMs可以为学生提供实时的问题解决和辅导支持。当学生在学习过程中遇到困惑或问题时，他们可以随时向LLMs提问，并立即获得答案和解决方案。今年上半年的一项调查报告指出，接受调查的美国学生中有89%使用ChatGPT完成作业 $134$ 。此外，当学生在阅读文学作品时遇到理解困难，他们可以与LLMs进行对话，探讨文学作品的主题、情节和人物形象，帮助学生更好地理解和分析文学作品 $115$ 。

跨越时空的学习机会。LLMs的存在允许学生在任何时间和任何地点学习。学生可以通过移动设备或计算机与LLMs互动，不受传统教室时间和地点的限制。例如，学生可以利用晚上或周末的时间与LLMs进行在线学习，提高他们的学术能力和知识水平。利用LLMs的在线学习平台通过互联网为学生提供广泛的课程和学科。LLMs支持虚拟课堂和远程教育的实施，学生与LLMs实时交谈以解决问题。

提供学习资源和工具。LLMs可以作为丰富的学习资源和工具，为学生的学习需求提供各种教育材料和工具。例如，LLMs可以提供教科书、教育视频、互动练习等学习材料，以支持学生在各个学科的学习 $7$ 。此外，还有一些特定学科的工具，如MathGPT。MathGPT在基准测试AGIEval中的准确率为60.34%，可以帮助学生高效解决数学问题 $142$ 。

促进批判性思维。LLMs可以指导学生发展批判性思维和解决问题的技能 $50$ 。通过进行对话和提出发人深省的问题，LLMs可以培养一种鼓励学生探索答案的思维氛围，增强他们的自学能力和批判性思维技能。例如，LLMs可以模拟物理课中教师的角色，向学生提出关于概念、原则和解决问题策略的问题，鼓励他们进行批判性思考并发展解决问题的技能 $114$ 。

教育者的专业学习。LLMs可以通过为教育者提供大量教育资源、最佳实践和创新教学方法，支持他们的专业学习。教育者可以与LLMs互动，增强他们的教学方法，探索吸引学生的新方式 $65$ 。例如，教师可以与LLMs进行对话，讨论教学策略、课堂管理技巧以及满足学生个体需求的方法，提高他们的教学效果和专业成长。

教育的可达性和包容性。LLMs有助于使教育更具可达性和包容性。它们可以为具有不同学习风格、能力和背景的学生提供学习支持，确保所有学生都能公平地获得优质教育。例如，LLMs可以提供替代解释、视觉辅助和互动学习体验，以适应不同的学习者，包括有学习障碍或语言障碍的学生，使教育更具包容性和支持性。此外，通过多元文化培训，LLMs可以更好地理解和尊重来自不同文化背景的学生，并创造一个包容和尊重多样性的学习环境。

总结，LLMs与教育的整合将通过提供个性化支持、扩大知识覆盖面、促进批判性思维以及增强教育的可达性和包容性，彻底改变学习体验。它将赋予学生和教育者力量，转变数字时代知识获取、共享和应用的方式。

3 如何逐步将LLMs整合到教育中

人工智能与教育行业的整合是逐步进行的，从机器学习（实现存储和计算能力）到深度学习（实现视觉和听觉能力），再到现在的LLMs（具备理解和创造能力） $78, 99, 113$ 。在当前时代，全民优质教育的大力发展和全国范围内教育智能硬件的积极部署，代表了教育培训机构的积极转型 $13, 91$ 。在教师与人工智能模型长期共存与合作 $112$ ，以及高度同质化的硬件背景下，LLMs已经成为人类智能中最重要的技术之一。

3.1 教育领域采用LLMs的原因

LLMs的卓越特性使它们在教育行业的应用非常合理。自然语言处理（NLP） $41$ 、数据分析 $34, 135$ 以及文本生成能力 $119$ 与教育中的学习、提问和反馈的基本过程高度契合。"开发-部署"的迭代优化过程适合教育行业的应用过程。用户测试和反馈数据为进一步优化奠定了基础。以中国LLMs的发展为例，科大讯飞的Spark Desk3、百度的ERNIE Bot4以及好未来的"MathGPT"5已经积累了多年的教育行业经验数据 $143$ 。在使用过程中，这些LLMs可以从教育行业收集更多数据，从而实现技术的进一步优化。

"AI + 教育"的模式已经形成，AI技术的逐渐成熟为LLMs进入教育行业铺平了道路。智能教室、语音辅助教学、智能问题解决等AI应用已经成为教育行业的常态，导致LLMs的高接受度 $10, 12, 96$ 。重要的是要认识到，LLMs是汇聚人类集体智慧的最新技术成果，而不仅仅是技术成果。然而，LLMs的发展潜能和影响力正在逐步增强。

教育公司实施自己的LLMEdu发展策略。LLMs需要大量的数据和重大的投资来支持。在数据方面，考虑到各种教育公司的长期经验数据积累、技术积累以及它们的发展条件的客观结合，这区分了LLMs在教育应用中的不同。它们专注于LLM研究，努力最大化其效益，迎合当前发展趋势，并降低开发成本。在资金方面，教育行业的消费者有强烈的消费意愿。随着人们生活水平和教育水平的提高，世界加强了教育行业并注入了大量资金，为LLM的研究、开发和应用提供了坚实的基础。

ChatGPT为技术和教育的整合带来了实际变化。学习是一个探索过程，而LLMs在教育中扮演着探索的角色。由于交互式问答的存在，人们的角色从被动的知识接受者转变为积极的探索者。由于机器幻觉的存在，学者们需要对生成的知识持怀疑和判断的态度，并从辩证的角度对待LLMs。智能技术激发了人类的创造力，使人们能够不断扩展学习的范围，从而促进了科技的进步。

LLMs支持教育的可持续发展 $5$ 。创新是技术发展的核心，也是长期应用的前提。通过充分利用ChatGPT等人工智能技术，教育的应用过程可以从搜索模式转变为为个人定制的内容生成模式。这使得开发多样化、可扩展、切实可行的应用场景，以及一系列差异化和高度体验性的教育产品与服务成为可能。它为教育者和受教育者提供了卓越的环境和资源，支持教育的可持续发展。

如今，通用语言模型（LMs）利用广泛的数据记忆，从专用应用模型转变为通用应用模型。它们依赖于文本生成能力，将应用过程从分发转变为生成。这使它们能够实现多模态，并从单一应用场景转变为多元应用场景 $43$ 。结合预训练和下游任务的多模态LLMs，可以高效地利用相对较少的数据完成下游任务的适应，并可用于小样本学习和自然语言问题回答。在教育中，实现了三种典型的应用：教学资源的自动生成、人机协作过程支持 $141$ ，以及教师的智能教学辅助。多模态LMs结合了强化学习、计算机视觉（CV）和自然语言处理（NLP）三个领域。它们试图扩展LMs的概念 $49, 95, 106$ 。

此外，我们展示了GPT模型的发展，如表2所示。

表2：LLMs的迭代和比较

LLMs	发布时间	参数数量	预训练数据大小	训练范式	特点
GPT	2018.7	1.2亿	5G	预训练 + 微调	自注意力结构优势的体现
GPT-2	2019.2	15亿	40G	基于无调整的提示范式：零样本提示	开启提示范式的探索
GPT-3	2020.6	1750亿	45TB	基于无调整的提示范式：上下文学习	加深提示范式的探索
InstructGPT	2022.3	1750亿	45TB	指令调整的提示范式	开始关注人类偏好
ChatGPT	2022.11	1750亿	45TB	来自人类反馈的强化学习	与人类偏好一致
GPT-4	2023.3	近2万亿	-	来自人类反馈的强化学习	多模态处理，更接近仿生人脑
LaMDA	2021	137亿	150TB	预训练 + 微调	引入外部信息检索系统
BARD	2023.2	137亿	-	作为ChromeOS的搜索引擎	使用LaMDA作为基础
PaLM	2022.4	540亿	-	PathWay分布式训练框架	大规模，多语言
Claude	2023.3	52亿	-	加入RLAIF训练范式	比ChatGPT更长、更自然的文本编辑
BlenderBot3	2022.8	175亿	-	指令微调	文本生成，问题回答

3.2 融合策略

与教育和培训社区合作。LLM技术与学校、在线教育平台和教育技术公司合作，共同探索和开发LLMs在教育中的应用。通过合作提供实际的教育场景和资源，可以帮助定制模型以满足教育需求，并加速LLMEdu的实施。例如，百度推出了"ERNIE Bot" $143$ ，阿里巴巴集团控股有限公司推出了"统一千问"15，以及像清华大学这样的大学推出了"ChatGLM"16 $133$ 等。

形成定制化内容生成以增强竞争力。LLMs需要高质量和大型数据集，因此教育和培训社区可以使用LLMs生成高质量的教育内容，如课程材料、教科书、练习和测试。例如，百度的"ERNIE Bot"在回答知识问题上有一定的准确性，因为它使用百度百科作为训练材料。ChatGPT也可以为教学生成一些框架性的教学计划。

提供受欢迎的教育功能。一些教育技术公司开发了智能辅导系统，使用LLMs回答学生的问题，提供答案和反馈，对开放式问题提供逻辑响应，并针对计算问题提供引导性回应。例如，好未来开发的MathGPT在数学领域提供高质量的解题辅导 $97$ 。一些公司使用LLMs开发语音识别和对话系统，使语音教育和互动更容易实施，实现语言教学和情境对话 $54$ 。

将LLMs整合到在线教育平台中。基于与互联网结合的学习模型以及大数据的快速发展，将LLMs整合到在线教育平台中，可以为学生提供更丰富的学习资源、工具和更全面的应用程序。例如，Coursera在线教育平台17使用LLMs实现数据收集和课程推荐等功能。Duolingo18使用LLMs升级语言功能。Chegg19使用LLMs优化作业辅导流程。

参与优化教育工作培训过程。首先，为教育者提供培训和支持，以便他们能够有效地使用LLMs和相关工具。例如，我们学习如何将模型集成到教学中，以及如何解释和使用模型生成的数据和建议。其次，我们使用LLMs分析学生数据，为教育者提供有关学生进度和需求的见解，从而优化他们的教学方法，如及时反馈功能。

持续改进和研究。LLMs逐步整合到教育行业需要时间和资源。在此过程中，持续监控和改进LLMs的性能、应用和潜在风险，并遵守数据隐私和安全法规，考虑到不同地区和文化的教育需求，可以最大化LLMs在教育行业的作用。

4 LLMEdu的关键技术

支持LLMs快速发展的背后技术如图4所示。这些技术的结合使LLMs能够在各种自然语言处理（NLP）任务中取得优异的表现，如文本生成、机器翻译、情感分析和文本分类。它们已经在各种应用中发挥着重要作用，如虚拟助手、智能搜索、自动摘要生成和自然语言理解，这促进了LLMEdu的发展。

表3：生成性AI与判别性AI的比较

核心	数据学习	发展过程	应用
判别性/分析性AI	分析	条件概率分布	成熟技术，广泛使用
生成性AI	创造	联合概率分布	指数级增长

语言模型。它从语料库中学习，并基于概率分布预测词序列。训练语言模型使用的两种主要技术是下一个词预测和掩蔽语言建模。下一个词预测根据其上下文预测下一个词，掩蔽语言建模学习语言的统计结构，如词序和使用模式 $9, 25, 84$ 。然而，在预测文本和掌握LMs中更高级的表示之间仍然存在显著差距，因此LMs的训练策略可能是不一致的，可能无法正确达到最终目标。预测能力反映了大型模型的学习能动性，这决定了LLM在回答问题时能否形成连贯和逻辑的文本。因此，语言模型是LLMEdu的基础。

人类反馈强化学习（HFRL）。这是训练LLMs时使用的一种方法 $86$ 。通过纳入人类反馈，它减少了扭曲和无意义的输出，帮助ChatGPT克服了GPT-3中存在的问题，如一致性问题。它包括监督式微调、模拟人类偏好和近端策略优化 $140$ 。i) 在监督式微调中，首先执行下一个词预测以改进注入的数据，然后整合结果，最后进行解码操作，对少量注释数据进行微调 $33$ 。ii) 开发一个模拟人类偏好的奖励模型来对解码结果进行排名，并构建一个排名序列以获得评分模型。为确保注释结果的一致性，排名过程使用序数排名进行数据注释，从而形成一个新的由比较数据组成的数据集 $8$ 。iii) 近端策略优化旨在学习一个策略，以最大化训练期间获得的累积奖励。该算法涉及一个行动者，它输出下一个动作的概率分布，以及一个评论家，它估计给定状态的预期累积奖励。通过迭代优化奖励信号输出，模型从经验中学习，适应新情况，不断调整其策略，并改进LLMs $121$ 。HFRL提高了LLMEdu的准确性，使输出结果更加简洁、准确，并符合人类的思维方式。

深度神经网络（DNNs） $42$ 。在解释DNNs之前，有必要介绍深度学习。它指的是学习样本数据的底层模式和层次表示，旨在实现具有类似人类分析能力的机器学习目标。DNNs由多层相互连接的神经元组成，通常包括输入层、多个隐藏层和输出层。神经元之间的连接类似于生物神经细胞之间的连接。DNNs在处理大规模教育数据方面具有优势，包括学生的学术表现、学习行为、解决问题的能力等。通过分析这些数据，LLM可以为教育决策提供洞见，并改进教学方法和个性化教育策略。

自监督学习。为了产生期望的结果，模型或机器需要用给定的材料进行训练。机器学习可以分为监督学习、无监督学习和强化学习 $80$ 。自监督学习属于无监督学习，其中模型为特定任务学习通用特征表示。与需要大量手动注释数据进行训练的监督学习不同，自监督学习通过用数据本身的内在结构特征代替人类注释，使用未标记的数据集完成自我训练 $31, 125$ 。它逐步从头开始训练参数，使用部分输入作为监督信号，其余作为输入。这种方法显著降低了手动注释在成本高、周期长和准确性低方面的成本，从而降低了开发成本。通过自监督学习，LLMs可以学习语言数据的高级表示和对语言技能的深层认知。这使它们能够更好地理解和生成与教育相关的内容，包括教科书、练习、解决方案和学习材料。

变换器模型。从结构角度来看，语言模型从统计语言模型发展到神经网络语言模型，现在发展到大型语言模型（LLMs）。统计语言模型专注于将句子转换为概率分布，但计算能力的缺乏限制了它们处理大量数据的能力。神经网络语言模型，如递归神经网络，使用递归和卷积神经网络来转换语言序列。递归神经网络需要考虑计算的输入输出顺序，并且不能高效地批量处理示例，导致速度较慢。在LLMs中广泛使用的变换器模型克服了这些限制。变换器模型本质上是一种编码器-解码器架构，包括编码和解码组件。它采用注意力机制来捕捉输入和输出之间的全局依赖关系 $27$ ，而不考虑输入或输出序列内的距离 $29$ 。这种方法将相关信号操作所需数据的增长率从线性或对数变为恒定，展示了高并行性，有利于快速模型迭代。与以前的模型相比，变换器模型具有更丰富的结构，更强的各种场景适应性，以及更好的性能。变换器模型提高了LLMs的兼容性和实用性，以及其应对多样化和丰富教学内容和教育场景的能力。

LLM诊断和应用评估。现有的跨学科评估系统从两个角度评估LLMs：LLM训练期间的诊断和LLM应用的有效性。"ChatbotArena"20是LLMs的基准平台，进行匿名和随机的对抗性评估，系统随机选择两个不同的LLMs与用户聊天，然后用户对交互进行评分。"SuperCLUE"21是评估中文通用LMs的基准，检查基本能力、专业能力和中文特定能力的多维能力 $124$ 。"C-Eval项目" $51$ 由上海交通大学、清华大学和爱丁堡大学联合开展，构建了一个多学科基准列表以协助中文LLM研究。"FlagEval" $63$ 由多所大学构建，采用三维方法评估LLMs，包括事实性、安全性和包容性。这些评估框架旨在全面评估LLMEdu的性能、道德影响和潜在偏见，以及促进LLMEdu能力和技术优化的改进。

提示工程 $83$ 。它指的是与LLMs交云的能力。机器通过提示匹配相应的结果，从而提高生产力。好的提示可以增强LLMs的智能性并增加反馈结果的价值 $109, 130$ ，增加LLMEdu的使用价值。此外，不良的提示可能导致错误的结论。在教育领域，尤其是严谨的科学中，答案的正确性始终是首要考虑的，因此优化提示词也很重要，以应对LLM在回答学术问题时的胡说八道。不同的LMs，如ChatGPT、ERNIE Bot和MathGPT，具有独立的底层训练机制，它们的提示也不同。这可以类比为与具有不同个性的个体进行交流。

学习认知机制。在认知伦理学中发展起来的学习认知机制，是智能教学设计的基础。它研究学习者的知识构建过程，将新知识整合到现有的知识结构中，并调整和更新整体结构。在ChatGPT之前，AI主要关注计算和推理。随着AI的快速发展，其认知智能逐渐显现，甚至可以匹敌人类智能。有两种主要的认知方法：一种通过计算机模型模拟人类学习过程，另一种使用功能性磁共振成像等非侵入性脑成像技术。LLMs主要模拟人类学习过程，其中预训练可以类比为获取新知识和构建知识。

通过添加插件，最新的LLM GPT-4能够解决实时问题，例如解决预训练数据的滞后问题。GPT-4也能更好地解决逻辑问题，因为它将数学问题数据集MATH和GSM-8K引入训练数据集，大大提升了其数学推理能力。此外，GPT-4还可以完成创造性文本创作，因为它连接到API，用户可以自定义AI角色并完成模拟写作，减少偏差和过度纠正 $71$ 。

Figure 4:Key technologies of the LLMs

5 LLMEdu的实施

在本文中，介绍了很多LLMEdu的产品，总结如图5所示。此外，本部分将从两个方面重点讨论LMs的实施过程：LLMs赋能教育以及LLMs特别赋能数学领域。最后，我们使用一个统一的框架来组织和比较LLM在教育领域的应用。详细信息显示在表4中。

Figure 5:Examples of LLMEdu.

5.1 由LLMs赋能的教育

提高教师效能。LLM可以帮助教师获取丰富的教学资源，使他们能够更有效地进行课堂教学。在课前，LLM可以作为备课的得力助手。通过互动问答环节，LLM能够为教师的课程计划提供思路，帮助设计教学大纲和课程计划，并帮助教师快速识别课程的亮点和挑战。在课堂上，LLM可以作为人工智能助教，为教师和学生提供即时反馈平台，增强课堂的参与度、兴趣和吸引力。课后，LLM可以帮助教师生成家庭作业和考试题目，使教师能够更好地评估学生对学科内容的理解。在日常工作中，LLM也是教师的宝贵助手，能够起草会议邀请、撰写工作计划、总结、报告等。如果使用得当，LLM可以帮助减轻教师的工作负担并促进他们的专业发展 $136$ 。例如，一项调查指出，在论文修订过程中，57.4%的用户认为LLM生成的反馈是有帮助的，并能帮助他们改进研究过程 $64$ 。

促进学生进步和成长。在学习辅助方面，LLM是一个强大的工具，能够理解复杂概念，解决难题，并提供相应的学习建议。在语言学习中，LLM提供基于场景的对话训练，大大增强了学生的口语和写作能力。在培养思维技能方面，LLM有时会表现出"严肃的胡说八道"。教师和家长可以利用这一现象培养学生的批判性思维，提高他们的信息素养。在学习能力发展方面，使用LLM的过程要求学生提出问题。在这个过程中，学生必须学会如何将他们的问题转化为有效问题，以及如何获取有用信息，这培养了学生的自学能力和总结能力。以大学生为例，数据显示，LLM最新产品之一，iFlytek Spark模型的用户中，超过20%是大学生，它帮助他们在英语口语练习、模拟面试和课后作业方面取得进步。

回答专业和学术问题，加速研究进展。LLM能够编写学术实验代码、构建实验模型、快速准确地搜索文献资料，并提取和整合相关信息。这减少了手动研究和积累的繁琐过程，节省了大量时间。结果，研究人员可以将更多的精力投入到后续研究中，从而提高研究效率 $7$ 。此外，报告发现，大学中的LLMs作为人工智能领域的重要研究平台，取得了显著成果。中国大学对LLMs的研究主要集中在计算机视觉、自然语言处理、语音识别等领域。这些领域的研究成果不仅为大学教师和学生提供了良好的学术氛围，也为不同人工智能产业的发展提供了有力支持。

促进教育意识的演变和形成新的学习范式。现有的教育体系主要侧重于传承，学生通常以从学习经历中继承的惯性思维来对待知识。缺乏创新意识。然而，随着ChatGPT等人工智能技术的进步，现有的学习范式已不足以满足未来的需求。面对ChatGPT等技术带来的挑战，有必要培养更高的意识，并运用高度意识的思维技能，形成新的学习范式，同时提高感知和认知能力，以更好地理解世界。例如，ChatGPT反映的高意识生成学习范式涉及建立新旧知识之间的联系，纳入反思和自省，并创新新的概念和理解。为了推进高意识生成学习范式，需要教育设计者和实施者之间的合作，构建适应性学习环境，培养积极的学习氛围 $7$ 。

创建高度情境化和智能的学习体验。在学科学习中，像LLM这样的生成性AI，凭借其庞大的数据量，能够为学生提供丰富的信息和知识，简化寻找学习材料的过程，并帮助学生在各个学科中找到答案和解决问题。在语言学习中，LLM可以提供实时对话训练，使学生能够沉浸在基于场景的学习中，提高他们的会话和写作技能。在学习的时间和空间方面，作为在线工具，LLM可以让学生随时随地访问，提供了极大的灵活性。目前，LLMs正在不断提升其技术和能力，以实现智能学习。例如，在语言理解任务中，超大规模的中文预训练语言模型PLUG以80.179的分数打破了中文GLUE分类列表的记录。在语言生成任务中，与先前多个数据集中的最佳结果相比，平均提高了8%以上。

促进教育高质量发展，增强教育管理和决策能力。LLMs代表了支持智能教育的最新技术手段，它们的发展过程反映了人工智能与人类的同步进步。这体现了一种新的教育风格时代，旨在创造智能、培养智慧，并创造更高效的智能。此外，LLMs中涉及的数据透明度可以使教育发展决策更加精确和科学，将教育决策从经验模式转变为基于证据的模式，从而增强教育治理能力。最后，教育从业者可以使用像ChatGPT这样的AI技术来进行基于场景的学生评估，实现教育评估的数字化转型 $45$ 。LLMs可以帮助教师判断学生学习的进步情况和了解学生的学习状态。注意到，LLMs通过评估收集的多维数据对教育者研究学生的学习逻辑和发展规律、及时调整教学内容，并为学生提供个性化的成长服务很有帮助。

推动教育系统深入研究。教育研究范式已经从传统的科学实验经验观察和总结、理论模型构建和推导、计算机模拟发展到大规模数据收集、分析和处理的科学研究范式。教育研究范式在不断变化。然而，随着时间的推移，旧的研究范式不再满足要求。以LLMs为代表的内容生成性AI的出现，催生了新的范式，"科学AI的第五范式"，使人类能够更深入地探索教育系统。这种范式转变涉及从简单模仿人类到认知理解和转变的过渡，创造了AI和教育的新世界。根据Study.com22的调查，21%的中国以外的教师已经开始使用ChatGPT来协助他们的教学工作。美国上市公司、教育培训机构Chegg也表示，在推出基于LLM的学习辅助平台后，它影响了其原有业务的用户增长，学生对ChatGPT的兴趣大大增加。

促进AI从碎片化发展到可扩展性，从而增强其在教育中的泛化能力。LLMs通过预训练LLM并对其进行微调以适应下游任务的过程，准确捕获大量数据集中的知识 $11$ 。这些知识存储在大量的参数中，然后针对特定任务进行微调。最后，它可以灵活地应用于各种场景。换句话说，一套单一的技术可以用来解决不同的任务，大大提高了开发效率。例如，在教育领域，LLMs共享数据以解决共同问题，并广泛应用于对话问答、语言翻译、文本生成等场景。一些开源的LLMs，如ChatGLM、Baichuan、InternLM、Qwen-7B和Qwen-14B，都是LLMs泛化的表现，其中Qwen-14B的准确率已超过70%，表明这些程度在不断提高。

5.2 数学中的LLMs

自诞生之初，人工智能(AI)就一直在追求数学研究和应用。数学是教育中一个具有挑战性的科目，精通数学代表着LLMs智能水平的一个重要里程碑。LLMs成功处理数学问题将标志着人工智能的一个新时代。

数学应用可以反映LLMs的模仿能力。数学是一门需要逻辑推理和批判性思维的抽象学科 $102$ 。目前，LLMs无法真正理解数学的本质并表现出独立思考。因此，在解决数学问题时，这些LLM模型严重依赖于它们训练数据中嵌入的数学概念和规则。例如，在解决代数问题时，LLMs通过模仿人类学习和应用代数的方式，应用代数规则 $71$ 。

提高LLMs在数学计算性能。LLMs的本质是基于数据相关性预测未来的输出。然而，在预训练阶段很少或从未遇到过的符号可能会出现错误。例如，由于数字的大小是无限的，而LLMs的规模是有限的，对大数字的算术运算很可能会出错。为解决这个问题，在合成算术问题上微调LLM，并使用特殊的训练和推理策略，进一步提高数值计算性能。

优化逻辑推理过程。一是通过对LLMs的人类逻辑推理过程进行优化。例如，一些学者已经将LLMs应用于定理的证明 $44$ ，因为LLMs可以提供大量的相关材料来弥补信息的缺失或遗漏，使推理更加完整。第二个目标是提高LLMs的逻辑推理能力。LLMs的逻辑推理能力是评估LLMs的关键指标。由于LLMs通常存在参数空间过大和数据稀疏严重等问题，LLMs在稳健和严格的推理任务上表现不佳。相关研究已经提出了优化LLM逻辑推理问题的方法。例如，OpenAI23研究了一种基于过程的监督模型，以提高GPT-4的逻辑推理能力。此外，一些研究机构使用在大规模数学语料库上进行连续预预测的方法，这提高了模型在数学推理任务上的性能。

与外部工具交互以提高LLMs的数学能力。1) LLMs与语言转换工具交互，如精益语言 $81$ ，它可以将数学语言转换为计算机语言，从而提高模型推理的严谨性。这是一种创新的方式，可以弥合人类推理和机器推理之间的差距。这可以允许模型更好地理解和处理复杂的数学概念。2) LLMs与信息检索系统交互，如Google提出的大型对话模型LaMDA，它连接到信息检索系统，允许模型学习检索和使用计算器和翻译引擎 $108$ 。3) LLMs直接与计算引擎交互，如MathGPT，通过与计算引擎交互提高计算精度。这允许模型利用计算器强大的计算能力，以更高的精度执行复杂的数学计算。4) LLMs使自身能够确定交互工具，如Meta的工具模型，它可以自行决定使用外部工具 $98$ 。这给模型提供了适应不同情况的灵活性，并选择最合适的工具来解决问题，就像人类一样。

数学中LLMs的未来发展前景。具体来说，首先是以科学研究为核心的前沿探索，如对LLMs在数学方面的能力进行研究和改进，包括计算能力、推理能力、鲁棒性等。第二是改善包容性教育和大众基础教育。这包括研究如何使用模型来改善学习体验和效果，以及提高各年龄和背景学生的数学教育。通过利用LLMs的力量，可能能够创建满足个人学生需求和学习风格的个性化学习体验，使数学教育对更广泛的人群更加可访问和有效。在发展潜力方面，LLMs解决数学问题能力的扩展可能对其他技术和教育领域产生深远的影响。例如，LLMs可以用来提高科学模拟的准确性和效率，增强机器学习算法的有效性，甚至可能有助于发展如量子计算这样的新技术。最终，LLMs在数学的发展可能推动新一代教育模型的发展，这些模型更具包容性、有效性和效率性。

6 问题与挑战

在实际应用中，教育领域的大型语言模型（LLMs）仍然面临许多问题和挑战，包括但不限于图6所示的内容。

6.1 主要问题

错误知识的广泛传播风险。作为一种不完美的智能技术，像ChatGPT这样的大型语言模型（LLMs）仍然存在许多缺陷。最大的缺点是生成错误信息的潜力 $3$ 。正如许多人所注意到的，LLM有时会表现出机器幻觉 $94$ 。例如，一位加利福尼亚的计算机科学家尝试使用不同的方法检查GPT机器人的输出，发现GPT-3.5和GPT-4在测试从大学教科书和考试中选出的物理、化学和数学问题时充满了错误。此外，由于LLM的训练数据主要由英文语料库组成，它经常难以理解并正确回答个性化的中文问题。短期内，这些错误可能会导致学生知识学习的中断，辨别能力较弱的学生很可能在不知不觉中获得错误的知识。长期而言，如果相应的技术没有及时改进，LLM可能会进一步促进错误知识的传播。有许多积极应对机器幻觉的例子。例如，检索增强生成方法（RAG）可以将LLM与经过严格验证的外部关键知识库整合。

教育系统中缺乏明确的运作规则。由于教育本身复杂，使用特定的符号和算法来代表教育系统是一个极其具有挑战性的过程，目前的LLMs无法实现。教育行为，如情感互动、有效沟通和以身作则，目前超出了LLMs的能力。LLMs从大量数据中学习并提供反馈，用数据代表主观的教育信息，并提供人类思维的合理反思。使LLMs人格化的目标是使NLP模型，如Word2Vec，能够将单词转换为向量，便于计算机处理文本数据 $4$ 。基于自注意力机制的GPT-1和BERT进一步提升了性能 $40$ 。GPT-3凭借其显著增加的参数规模，在零样本学习任务上实现了性能的飞跃 $116$ 。ChatGPT的人类反馈强化学习（HFRL）、代码预训练和指令微调提高了模型的推理能力 $86$ 。GPT-4是一个超大规模的多模态预训练模型，具有多模态理解和多种类型内容生成能力 $62$ 。这些例子展示了解决LLMs人格化问题的想法，通过不断的优化和发展，逐步接近类人能力，从而缓解了教育规则的抽象和模糊性的限制。

学生使用LLMs的一些缺点。LLM答案中的偶尔不准确可能会误导缺乏批判性思维技能的学生。LLM的巨大便利性可能会减少学生对独立学习和创新的渴望，导致智力懒惰。由于LLM涉及大量数据，缺乏数据安全意识的学生可能会在不知不觉中泄露他们的个人数据 $129$ 。虽然LLM提供了交互式对话场景和与学生进行AI交流的机会，但它减少了真正的人际对话，讨论问题的方式可能从在线转变为对机器的单方面提问，影响学生社交技能的发展。为了应对这些问题，教育者需要积极引导学生适应LLM辅助教育的特点，并加强隐私和安全意识的培养。

LLMs在协作教学中的整合不足 $71$ 。尽管LLM在一对一对话和沟通方面取得了一定程度的成就，但其与现实生活教育的整合仍然有限。解决高阶推理问题和复杂问题的能力仍需改进。例如，尽管GPT-4在某些考试中表现合理，但在逻辑推理问题上未能显示出显著优势 $70$ 。大多数LLMs在步数较少的推理上准确率很高（高达95%），但当步数增加，达到20个或更多时，准确率显著下降至36%，表明存在显著差异 $90$ 。因此，有必要开发思维链技术来提高LLMs的推理能力和解决复杂问题的能力 $117$ ，从而促进大型模型与协作教育的整合。

LLMs的限制 $107$ 。首先，在预训练中，还没有实现同时满足合理模型大小、先进的少样本学习能力和先进的微调能力的模型。例如，GPT-3缺乏合理的模型大小，规模相对较大 $16$ 。此外，LLMs的高复杂性和强大的数据依赖性可能被恶意数据利用，影响它们的训练过程和生成结果，以及输出不确定性和其他因素。LLMs技术的缺乏可解释性使它们的内部机制不清晰。LMs的广泛应用需要可解释性以确保应用安全，克服性能限制，并控制社会影响，这引发了对这些问题的相应考虑。未来，LLM的技术仍需要优化和创新，研究人员需要根据用户情况更多地考虑模型的可解释性。

6.2 主要挑战

技术挑战。LLMEdu的应用依赖于基于AI的技术，这些技术复杂且具有挑战性。如果技术没有完善，就很难提供高质量的教育服务。高质量数据源的可用性是影响LLM技术改进的重要因素之一。高质量的数据转换涉及捕获和转换过程。必须考虑如何扩展教育领域的感知，捕获教育科目中任何学习活动的动态表现数据，以及如何通过高效处理提高数据质量。此外，LLMEdu还面临语音识别、NLP、AIGC $119$ 、多模态LLMs $120$ 等技术方面的挑战。上述问题要求研究人员始终关注AI领域其他技术的发展，并积极将它们整合到LLM中，为教育行业带来更好的体验。

人工智能安全。LLMs的智能水平不断提高，安全问题也变得更加严重。首先是LLMs的偏见认知。一些研究指出，当LLMs使用性别偏见数据集进行测试时，它们的回答会反映出性别偏见 $57$ 。因此，在训练LLM时，应该筛选数据。第二是缺乏正确的社会、道德和伦理价值观。对于某些违反社会伦理的问题，LLMs无法判断，这增加了犯罪风险。因此，国家应该制定更完善的法律体系来规范LLMs的使用。第三是人工智能伦理问题中最常见的问题："AI取代人类活动"。AI在教育中有其局限性。虽然AI在教育领域有很大的潜力，但它不能取代教师的角色，比如鼓励批判性思维、解决复杂问题和提供心理和社会支持。然而，人类也应该灵活调整自己的角色，从伦理角度规范和引导AI的发展，并保持主导地位。

教育质量。LLMEdu的使用为智能教育提供了许多机会，但也在质量方面提出了挑战。如果LLMEdu不能提供高质量的教育服务，就很难获得学生和教师的认可。此外，使用LMs的教育机构必须在教育质量和技术创新之间找到平衡。否则，可能会过度依赖技术，忽视教育本身的质量。因此，为了确保教育质量，首先要考虑的是确保教育内容，这要求教育者调整合理的教学内容并明确LLMs的辅助功能。然后，技术开发者需要确保LLMs的技术稳步前进。

技术依赖。请注意，未来的LLMEdu应该是以人为本，而不是以技术为中心 $127$ 。过度依赖AI可能会降低学生的独立学习能力和创新思维能力，甚至可能导致作弊和学术不端行为，例如使用ChatGPT完成作业和论文。有必要防止LLMs的被动应用，如现实中的例子所示。在使用AI的同时，应该鼓励学生独立思考，探索问题并找到答案。此外，应该教育学生进行时间管理，确保在使用AI的同时有足够的时间进行其他重要活动，避免过度依赖它。

技术可达性和培训。引入AI技术需要相应的硬件基础设施和网络支持。在资源有限的地区，这可能是一项挑战。加之存在由于担心被取代而产生的压力和根深蒂固的思维模式 $126$ ，教育领域出现了对使用AI的恐惧和拒绝现象，换句话说，就是认知限制。在这种情况下，技术获取和培训变得困难。因此，应该努力推广AI在教育行业的长期优势，引导教师和学生接受适当的培训，更好地理解智能技术的应用理念和具体方法，增强使用意愿，并更好地适应和利用这些工具。

公平性问题。尽管AI有潜力提高教育的质量和效率，但其使用可能导致学生之间的不公平。例如，一些家庭可能负担不起AI学习工具，或者在某些地区，学生可能缺乏使用ChatGPT等工具所需的技术设施。教育公平是社会发展的基石，需要有效干预来解决上述例子中提到的问题。例如，在设计和优化LLMs时，应努力平衡种族、性别和年龄等特征，减少数字鸿沟和性别差距。

数据隐私和安全 $129$ 。数据隐私，包括隐私保护，在LLMs的应用中是一个重大的关切。LLMs涉及收集学生和教师的个人信息和学习数据。因此，隐私保护成为LLM应用中的一个重要问题。教育机构需要确保有效保护学生和教师的隐私，同时也要确保数据的安全性和可靠性。父母和教师应注重培养儿童的数据隐私和安全意识，并教育学生避免使用LLMs时相关的隐私风险。此外，在收集和处理学生的学习数据时，必须确保这些信息得到妥善保护，以避免数据泄露或不当使用。

未来，随着智能与教育融合时代的发展特征，继续优化核心技术和技术创新，像ChatGPT、GPT-4和MathGPT这样的LLMs将继续为教育领域赋能。此外，基于现有的LLMs，我们必须继续寻找更有效的训练方法，以更高效地训练具有大规模参数的模型 $11$ 。

7 结论

在本文中，我们尽可能全面地介绍了LLMs在教育领域的发展和应用。仍有些技术未被包括在内，以及其他一些问题尚未深入讨论。希望本文介绍的技术及所提出的观点能够帮助学者和研究人员更好地开发和优化教育领域的LLMs。本文总结了教育与LLMs整合的过程。LLMs拥有传统基于书本的教学无法提供的优秀语言生成和交互能力。它展示了AI在教育中的创造性角色，以及教师、家长和学生角色的变化。对于智能教育，我们呼吁制定更加成熟的教育和AI发展标准、技术规范和数据安全指导方针，以关注更多实际问题。如何确保数据安全？我们如何限制过度依赖AI技术的行为？如何培养学生的积极探索能力？LLMs与教育相辅相成。LLMs在教育中的应用使教育更加智能化和高效化，而教育领域多年积累的数据可以帮助优化LLMs的训练。应更多关注这些发展条件。我们如何创造更多有价值的LLMEdu应用场景？我们期待LLMEdu的未来。