国际教育评价领域的新方法与新趋向-西安科技大学发展规划处

国际教育评价领域的新方法与新趋向

发布日期：2024-10-31 文章来源：中国教育评价点击：

当前，受技术进步、社会需求变化以及深入理解学生多样化学习方式驱动，教育领域正在经历一场深刻变革。教育工作者、研究人员、心理测量专家及政策制定者不仅要紧跟时代发展步伐，还要开创新一代教育评价方法，以助力学生未来学习。传统评价方法通常依赖标准化测试并采用“一刀切”方式，无法全面捕捉学生的能力、兴趣和潜力，也远远不能满足教育变革中各方主体的真实需要。在世界变得更加复杂和互联的背景下，教育领域对更加细致、个性化且能够提供可操作办法的评价系统的需求不断增长，亟须创新教育评价方式方法。

目前，该领域最有前景的发展方向之一是基于数据分析的个性化学习路径。通过应用大数据集和复杂算法，教育工作者可以根据每个学生的个体需求量身定制学习方案。这种方法不仅可以提高学生的参与度，还可以更精准地测量学生的进步和成就。有研究指出，个性化评价可以识别学生擅长和薄弱的具体领域，从而提供有针对性的干预以支持其成长和发展^[1]。另一个显著趋势是转向基于能力的教育模式，该模式注重培养学生对特定技能和知识的掌握。为了准确测量学生在多个领域的能力表现，亟须开发新的评价方法，且这些方法必须具有灵活性，并允许学生以多样化方式和个人节奏展示他们的学习成果。沉浸式技术的整合也在革新教育评价，这些技术可以模拟真实场景，为学生提供逼真的情境互动和丰富多彩的学习环境。在这些虚拟环境中进行的评价，可以更深入地了解学生的问题解决能力、批判性思维能力以及将知识应用于实际情况的能力。以虚拟现实（VR）和增强现实（AR）技术的整合为例，整合后的技术可以使学习更加具有包容性和可达性，特别是对残疾学生或有特殊需要的学生更为友好。

此外，在多样化和多元文化社会中，文化响应性评价越来越重要。通过开发具有文化敏感性的评价工具，如增加尊重和反映学生文化背景因素的题目，可以确保学生有平等的机会展示他们的知识和技能，从而促进教育公平。形成性评价的重要性也不容低估。连续性和形成性评价可以为学生和教育工作者提供持续反馈，允许随时调整教学策略，指导学习活动。这种动态方法有助于创造更具响应性和适应性的教育环境，学生也可以得到持续支持。

一个好的评价系统不仅能包容和培养每个学习者的独特潜力，而且能促进教育公平。通过结合最新的数字化技术并遵循公平和文化敏感性等原则，可以开发真正反映学生多样化学习方式并帮助他们成长的教育评价系统。本文旨在探讨一系列教育评价新方法和发展变革趋势，从而拓展教育评价新视野。通过系统分析和讨论，希望能为全面评价和提升学生学习体验的评价实践作出贡献，进而为更加个性化、公平且有效地培养每个学习者铺平道路。

一、教育评价领域的新方法

在不断发展的教育评价领域，新方法正在改变对学生学习和发展的评价。传统评价虽然仍有价值，但无法全面测量学生的各种技能和能力，因此，教育工作者越来越多地转向应用多样化和动态的评价方法。本文通过汇总、梳理和分析现有的教育评价方法，重点讨论基于项目的档案袋评价、同伴互评和反馈、游戏化评价等十种应用较为广泛的新方法。这些方法提供了一类更为全面和包容的评价手段，有助于学习者为应对日益复杂的现代社会做好准备。

（一）基于项目的档案袋评价

基于项目的档案袋（project-based portfolios）评价正逐渐成为一种超越传统测评方式的动态评价方法。在该方法中，学生通过整理自己的作品集合，可以展示他们在各种项目和作业中的学习历程和成果。档案袋可以提供学生学习过程的整体视图，使教育工作者不仅可以评价学生知识掌握情况，还可以评价他们的批判性思维、创造力和沟通技巧等内容。通过参与实际项目，学生既能加深对概念及其实际应用的理解，也能增强真实的学习体验。此外，该评价方法鼓励反思和自我评价，有助于学生掌握自身学习情况并设定个人学习目标。

在高等教育领域，基于项目的档案袋评价作为评价学生学习成果和能力的工具日益受到关注。一方面，该方法可以为学生提供展示其学术能力和职业成长的机会，对学生求职和职业发展至关重要；另一方面，该方法可以帮助教育工作者了解学生的优势和改进空间，进而指导教学实践和个性化辅导策略^[2]。随着大学越来越重视体验式学习和知识的实际应用，基于项目的档案袋评价逐渐成为一种具有强大评价功能的方法。

（二）同伴互评与反馈

同伴互评与反馈（peer assessment and feed⁃back）指学生之间互相评价作业完成情况，并提供建设性反馈意见。这种方法不仅可以减轻教师负担，而且可以促进学生更深入地学习和提高批判性思维能力。要想顺利完成对同伴作业的评价任务，学生不仅要更深入地理解课程内容，还必须能运用所学概念进行客观评价。此外，由于同伴反馈比教师反馈更容易被接受，因此也提高了学生的参与度和改进动力。同伴互评还有助于培养学生的沟通能力、合作能力及同理心等重要技能，这些技能对他们日后的学业和职业顺利发展非常重要^[3-4]。

在高等教育领域，同伴评价和反馈越来越多地被整合进各种课程和学科中。该方法不仅给学生提供了宝贵的学习机会，而且为他们在未来职业生涯中面临的协作要求提前做了准备。同伴评价可以帮助学生更加细致地理解评价标准和规范，通过积极参与评价，学生能够较为深刻地意识到自身优势和不足，从而促进自主学习和学术成长^[5]。

（三）游戏化评价

游戏化评价（gamified assessments）是将游戏设计元素整合进评价过程，从而增强学生的参与度、学习动机和成果产出。通过竞争、奖励和进展等原则，游戏化评价将以往枯燥乏味的评价任务转变为沉浸式、互动式的体验，以一种有趣、交互式的方式激励和评价学生。学生通常会面临一系列挑战、任务或情境，这些设计旨在以有趣和引人入胜的方式评价他们的知识和技能。积分、徽章、排行榜、虚拟奖励等方法也常被用来激励学生参与。这种评价不仅鼓励学生积极参与，还锻炼他们在面对挑战时的坚持力和适应力，有助于学生心理成长。

在教育环境中，游戏化评价具有促进深层学习和提高知识内容保持的潜力。首先，通过激发学生的内在动力和对知识掌握的渴望，游戏化评价可以提升学生的参与度和学习热情；其次，游戏化评价提供的形成性反馈和适应性学习体验的机会，可以帮助教育工作者根据学生的个性化需求量身定制教学策略^[6]；最后，游戏化评价的互动性还可以促进学生合作和社交互动，进而推动同伴学习和知识分享。总之，游戏化评价是一种动态且有效的评价方法，并与数字原生代（digital natives）的互动偏好及丰富的多媒体学习体验相一致^[7]。

（四）虚拟现实评价

虚拟现实（real-world simulation）评价通过模拟具有专业背景的真实生活场景或环境，提供具有实践性、体验性的沉浸式学习机会，从而有助于学生将理论知识应用于实际情境^[8]。模拟有多种形式，如虚拟模拟、角色扮演练习或互动案例研究等。通过让学生参与真实挑战，有助于培养他们的问题解决能力、批判性思维及与学习领域或未来职业相关的决策能力。通过提供即时反馈信息，学生可以反思自身行为并做出及时调整，从而提升学习效果。此外，由于参与者需要相互协作解决复杂问题或应对动态情况，因此该方法还有助于锻炼团队合作能力。

在高等教育领域，虚拟现实评价越来越多地被教育、科研机构用来弥合学术学习与专业实践之间的鸿沟^[9]。例如，在医学、商学和工程学等实践性、应用性较强的专业领域，通过让学生参与模拟场景训练和评价，可以培养他们的临床技能、商业思维或工程设计能力。一方面，这些模拟测评提供了一个安全可控的环境，允许学生犯错、尝试不同策略并从中吸取经验教训，却不会造成现实世界中的严重后果；另一方面，该测评方法还能帮助学生感知未来职业中的复杂性和不确定性并提前做好准备，帮助他们锻炼和培养所需技能和信心，从而能在动态和不断发展的行业中取得成功。

（五）数字徽章和微证书评价

数字徽章和微证书（digital badges and microcredential）评价是识别和验证学生在特定技能或领域中取得成就和具备能力的一种新方法。与传统的文凭或证书不同，数字徽章是学生通过各种学习经历（如课程、项目或评价）获得成就的一种数字化呈现。数字徽章包含元数据，能提供有关达到标准的详细信息及提交证据，具有数据透明和可验证性特点。微证书是一种正式认证，通常与行业标准或专业发展目标一致，可以证明学生具备某些特定的技能或能力，一般通过完成一系列相关任务或评价即可获得。

数字徽章和微证书相较于传统证书而言具有多种优势。首先，它们能精细化地认可某项技能或成就，有助于学生向潜在雇主或教育机构证明其具体能力。在竞争激烈的就业市场中，精细化认证提升了证书的关联性和独特性。其次，数字徽章和微证书比传统的学位或认证更加灵活和便捷，可以通过在线课程、研讨会或基于项目的评价等多种学习经历获得^[10]。最后，数字徽章和微证书可以促进学生持续学习和技能发展^[11]。通过提供清晰的途径，该方法帮助学生获取新技能并得到认可，同时还激励个人参与持续的教育和培训。总之，数字徽章和微证书评价代表今后一段时期内教育、职业领域一个颇具前景的方向，这与日益增长的对个性化、基于能力的学习路径需求是一致的。

（六）自我评价与反思

自我评价与反思（self-assessment and reflection）是深化学习经验、促进元认知（metacognition）发展的有效工具。在具体评价过程中，学生通过完成结构化的自我评价活动，如完成评分表、检查表或日记提示等，积极参与对自身进展、优势和成长领域的评价，进而有助于深入了解自己的学习过程和结果。通过自我评价和反思，学生还可以全面深刻地认识自己的学习风格、偏好及面临的挑战，进而制订有效的自我调节与改进策略。此外，自我反思鼓励学生对自身学习经验、个人与现实世界联系、个人目标等内容进行批判性思考，从而促进学生对学习内容的深刻理解^[12]。

（七）多模态评价

多模态评价（multimodal assessment）与传统的以文本为中心的评价方法不同，主要采用多种形式的媒介并将各种表达形式纳入评价过程，承认学生具有多样化的学习风格和个人专长，允许他们通过文本、图像、音频、视频、交互元素等多种形式展现个人能力^[13]。多模态评价提供了一种更具包容性和公平性的评价方式，可以满足不同学习偏好、不同学习能力人群的差异化要求。例如，在语言艺术和读写能力评价方面，多模态评价要求学生参与并分析各种形式的交流，为他们提供独特的评价机会。学生可以通过创建多媒体演示文稿、数字故事或播客等形式，展示他们对文本或概念的理解；还可以结合书面、视觉、听觉等元素，以一种符合多样化受众需求的方式表达复杂的思想。多模态评价鼓励学生发展批判性思维和媒体素养，因为他们必须批判性地评估不同交流方式的有效性及其对意义建构（meaning-making）的影响。此外，多模态评价对创造力和创新发展也具有推动作用，学生在评价过程中可以充分发挥自身优势。

（八）自适应评价

自适应评价（adaptive assessments）代表传统测试方法的范式转变，主要表现为可以根据学生的不同表现动态调整测评难度。与以往固定形式的测试不同，自适应评价可以通过算法根据每位学生的不同能力定制差异化的测试体验，以确保学生接受的挑战水平适当且有吸引力，从而更准确地评价他们的知识和技能水平。具体而言，随着学生展示能力越来越强，评价系统提出的问题也越来越具有挑战性，但可以在学生感到困难时主动降低难度，从而促进学生的持续学习和成长，允许他们以自己的步调前进。此外，评价结果还可以向教育工作者提供关于学生优势和改进建议的信息，有助于调整教学策略并提供更有针对性的教学^[14]。

目前，自适应评价在中小学教育、高等教育和专业认证项目等领域日益流行^[15]。在中小学教育中，自适应评价可以识别学生个体的学习需求并提供有针对性的干预措施，教育工作者可以根据评价结果提供差异化教学和个性化学习体验。在高等教育和专业认证项目领域，自适应评价可以对知识和能力进行更为高效和精准的测评，有助于学习者根据个人特点制订学习计划。随着技术的不断进步，自适应评价系统不断融合人工智能、机器学习等最新技术，进一步增强了评价的适应性和有效性。

（九）开放式探究项目评价

开放式探究项目（open-ended inquiry projects）是一种以学生为中心的评价，有助于培养学生的批判性思维、问题解决能力和独立探究能力。在该项目中，学生要对开放式问题进行研究、收集证据并得出结论，尤其是可以自主选择探究范围和研究方法，并以体现自身学习风格的方式展示研究结果。与传统的有预设答案的评价不同，开放式探究项目允许学生持有多样化观点并鼓励创造性探索，因此有助于学生深入研究感兴趣的主题项目。

开放式探究项目有助于促进学生的高阶思维技能发展和元认知意识培养。通过处理复杂问题和面对不确定性情景，学生学会批判性地分析信息、评价来源，并将探究发现整合为系统论证或解决方案。这一过程反映了现实环境中的真实挑战，可以为学生的学术成功和终身学习提前做好准备。此外，开放式探究项目需要学生联合解决复杂问题并与同伴分享探究发现，因此有助于发展学生的团队合作能力和沟通技能^[16]。

（十）基于社区的评价

基于社区的评价（community-based assessments）将现实世界背景和社区实践参与纳入学生的评价过程，增强了评价的相关性和实际应用性^[17]。在该评价中，学生要与本地的组织、企业或社区成员合作，解决真实问题。通过与课堂外的利益相关者直接合作，学生可以获得实践经验，并为有益于社区的重要项目作出贡献。基于社区的评价强调在实际生活情境中应用知识和技能，以促进更深层的理解并激发学习动机^[18]。

在高等教育领域，基于社区的评价逐渐被认可为一种有价值的方法，并主要用于评价学生的学习成果和促进公民参与。通过与当地组织或社区团体合作，高校为学生提供应用专业知识解决现实问题的机会，鼓励学生考虑将来工作时所面临的社会、经济和环境影响，以培养他们的公民责任感、道德感和领导力^[19]。此外，该评价方式为大学提供了与周边社区建立有意义合作伙伴关系的机会，增强了机构在校园外的影响力和关联性^[20]。

上述十种新方法虽然各有特点，但并非独立运行，而是相互补充，从而实现更全面、更有效的教育评价。例如，游戏化评价可以整合虚拟现实评价，通过增强学生的参与度获得更丰富的数据和更准确的评价结果；基于社区的评价可以整合多模态评价和自适应评价，允许学生通过多种媒体和形式展示知识水平，并根据学生表现提供个性化的问题解决集合。在选择评价方法时，设计者应结合具体的目标和目的选择最优组合，为学生提供有意义的成长和成功机会。此外，这十种方法只是一个较为宽泛的分类，实际上还有一些基础性和原则性的评价方法，也可以成为上述分类中的重要组成部分。例如，基于资产的评价（asset-based assessment）可以融入档案袋、同伴和社区评价中，从而确保学生现有的优势和技能得到认可和发展。通过接纳多样化的评价方法并根据需求进行调整，教育工作者可以创造更具吸引力、真实性和有效性的学习体验。

二、教育测评技术的新趋向

教育评价的未来发展方向受技术进步、教学法和课程设计变化、社会需求演变以及教育领域前沿研究等因素的共同影响。以下主要探讨十个较为典型的测评技术发展方向。

（一）个性化学习和评价

个性化学习和评价（personalized learning and assessment）应用先进技术和数据分析，根据学生需求量身定制教育方案，从而提高学习的参与度和效果。在评价背景下，个性化意味着创建根据学生学习风格、节奏和表现水平等因素的、可调整的评价方式。与传统“一刀切”评价相比，个性化评价可以更为细致和准确地评价学生的能力与发展。由于该评价方式可以根据学生作答情况动态调整问题难度，因此有助于教育工作者给学生提供即时反馈和有针对性的支持^[21]。

个性化评价的关键要素之一是开展形成性评价，以持续监测学生学习进展并提供教学调整的数据支持。形成性评价通常被嵌入学习过程，以便教育工作者实时收集学生对知识和技能的理解情况。例如，数字平台可以跟踪学生的学习情况，提供可能需要额外练习或支持的数据信息。这种持续的评价使教育工作者可以给每位学生定制个性化的学习路径，以确保学生获得与自己特征相匹配的任务和支持。

个性化评价还包括各种多媒体和互动元素，可以吸引学生并考虑其不同的学习偏好。这些评价通过融入视频、模拟和游戏化元素，不仅使评价过程更具吸引力，也能反映真实世界的任务；不仅有助于评价更广泛的技能，还有助于学生保持学习兴趣和动机。

近些年，随着数字化、智能化的快速发展，个性化评价越来越多地得到人工智能和机器学习的支持，这些技术通过分析大量学生数据识别其学习模式并深入洞察其学习轨迹^[22]。此外，通过将个性化评价整合进教育过程，教育工作者可以更好地满足学生的多样化需求，进而构建更具包容性和有效性的学习环境。该评价还可以提供学生进步、特长和成长领域的详细图景，有助于教师开展有针对性的教育干预，以支持每位学生的个性化学习过程。随着技术的不断进步，个性化学习和评价改变教育的效果日益明显，也为实现以学生为中心的、更加公平的教育体验提供了技术支持。

（二）基于能力的教育评价

基于能力的教育（competency-based education, CBE）评价以学习者为中心，强调学生以个人节奏学习特定的能力或技能，而不是局限在传统的课堂时间内。在CBE中，评价在测量和验证学生掌握能力方面发挥关键作用。与传统的评分系统不同，CBE评价通常依赖固定间隔的总结性评价，持续进行并允许学生根据熟练程度自主确定进度。

首先，CBE评价的关键要素之一是强调形成性评价实践。与大规模、高风险考试不同，形成性评价为学生提供定期反馈，帮助他们发现问题并引导整个学习过程。这种持续性反馈不仅有助于学生保持学习积极性，也有助于他们了解自身学习进展并随时调整学习策略。其次，CBE评价强调过程公开透明且与能力保持一致。测评开始时，学生收到明确的学习目标和评分标准，向他们描述了应该掌握的具体能力及需要达到的熟练程度。这种做法有助于培养学生的责任感和自主性，因为他们了解自己被期望做什么以及教师如何评价其表现等信息。最后，CBE评价要求学生在有意义的情境中应用知识和技能完成任务，尤其是完成现实世界中的真实任务。评价可以采取项目探究、模拟、案例研究或绩效任务等形式，有助于学生真实、恰当地展示个人能力。

（三）技术整合评价

教育评价领域的技术整合（the integration of technology）主要包括数字工具和自适应测试，既是测量和支持学生学习的新方法，也代表了评价实践领域的重大进步，还为教育工作者提供了评价学生进步和知识点掌握情况的更为高效的方式。技术整合评价中的一个关键要素是数字化评价，包括在线测验、交互式模拟和基于计算机的测试。数字化评价不仅可以提供即时反馈、进行自动评分，还能根据学生需求和学习目标选择个性化的评价题目^[23]。

技术的高速发展和全面整合，使自适应评价系统得以广泛应用。技术整合还允许评价中使用视频、音频、交互式图形等多媒体元素，即拓展为多模态评价。这些评价不仅测评内容知识，还测评包括媒体素养和数字沟通技能在内的多种能力，从而有助于更全面地了解学生的学习情况。

教育评价中的技术整合有助于收集和分析大量有关学生表现的数据。教育数据分析工具可以帮助教育工作者识别学生的学习模式和趋势，从而做出更具针对性的教学决策和干预^[24]。然而，在将技术整合到评价实践中时，必须考虑公平和可获得性问题，因为技术获取和数字素养技能的差异可能加剧现有的成绩差距^[25]。总的来说，教育评价中的技术整合有望提高评价的准确性、效率和可获得性，从而提高整体教育质量。

（四）形成性评价

形成性评价（formative assessment）是现代教育领域一种强有力的测评工具，可以为学生和教师提供持续性反馈，目的是指导教师教学并帮助学生跟踪自身学习进展。与终结性评价不同，形成性评价贯穿整个学习过程，常用技术包括小测验、互动投票、快速写作等，有助于教育工作者识别学生的优势和薄弱领域，并及时开展干预和支持。通过持续监测学生进展，形成性评价可以创造一个响应式的学习环境，并能根据学生的不同需求进行调整^[26]。

在个性化学习环境中，利用形成性评价结果生成个性化的学习指导策略非常重要。通过一系列评价，教育工作者可以根据学生的学习风格和不同需求调整教学策略。例如，如果形成性评价显示一组学生对某个概念的理解存在困难，教师可以修改课程计划、重新讲解、采用不同的教学方法或提供额外辅导。这样做不仅能够支持学生学习，还可以培养学生的成长型思维，鼓励他们将挑战视为发展机会而不是难以克服的障碍^[27]。

形成性评价的基本特征之一是强调持续改进。通过关注学习过程而不是最终结果，形成性评价鼓励学生反思学习过程并设定改进目标，使学生看到努力的价值。这不仅有助于激发他们的内在学习动机，还有利于形成良好的课堂文化。在这种课堂文化中，错误被视为学习的自然组成部分，因此极大地减轻了学生焦虑，也培养了他们应对困难和挑战时的韧性。教师也从中受益，因为该方法不仅可以提供有关教学效果的可操作性指导，还能提供教学改进建议。

（五）21世纪技能评价

21世纪技能评价（assessment for 21st century skills）强调批判性思维、创造力、协作和沟通，为学生应对未来挑战做好准备。随着劳动力需求的不断演变，教育评价必须转向评价学生在21世纪成长所需的技能。传统评价通常优先考虑基本记忆技能，但这些方法无法捕捉批判性思维、创造力、合作和沟通等关键能力。为解决该问题，教育工作者和政策制定者正在开发新的评价工具，用于评价重要的软技能和复杂问题解决能力。

创建基于表现的评价是一种有效方法，要求学生参与现实世界的任务和项目。这些评价允许教育工作者观察和测量学生在实际场景中应用知识的能力，反映他们在职业生涯中可能面临的挑战。例如，学生可能被要求组成团队、制订商业计划、解决社区问题或进行科学实验，这些任务不仅评价学生的学科知识，还评价他们的批判性思维、有效沟通和合作能力。通过将这些元素整合到评价中，教育工作者可以更全面地了解学生能力。此外，数字工具和模拟技术的发展为21世纪技能评价提供了新的途径。这些技术可以用于创建沉浸式环境，需要学生实时解决复杂问题并做出决策。例如，数字模拟可以将学生置于虚拟公司，要求他们解决商业危机或分析数据、制订策略、沟通解决方案等。这种评价可以提供有关学生表现的丰富数据，还能测量传统测试方法难以捕捉到的细微技能^[28]。

（六）真实性评价

真实性评价（authentic assessment）将学习与现实任务相结合，使教育的各个要素更加有关联和有意义，也代表从传统测试到反映真实世界挑战和应用的评价范式的转变。与通常侧重机械记忆和孤立技能的传统评价不同，真实性评价旨在反映现实任务的复杂性和综合性。这种方法强调知识和技能的实际应用，提供学生在真实场景中表现能力的更准确的测量。例如，学生不是接受关于历史事实的多项选择测试，而是被要求分析相关资料并推断历史事件影响，从而展示他们的批判性思维、研究能力、沟通能力等。

真实性评价的重要组成部分之一是对项目、演示和基于绩效任务的应用。这些类型的评价要求学生深度领悟所学内容，以有意义的方式应用他们对知识的理解，并产生可以公开展示和批判的作品。例如，科学评价可能涉及长期研究项目，学生在项目中调查问题、进行实验，并向全班或专家小组报告研究发现。这些项目不仅可以评价学生对科学概念的掌握程度，还可以评价其进行研究、分析数据和报告结果的能力^[29]。

真实性评价的另一个标志性特征是强调实际应用。通过让学生参与实际情境中的任务，教育工作者可以更好地评价他们在应对职场要求方面的准备情况。这种方法在职业和专业教育中尤为重要，其目标是为学生进入职场做好准备。例如，在商业课程中，要求学生结合市场研究、财务规划和战略决策等要素，给一家虚拟公司制定商业计划。这些评价为学生提供了综合应用所学知识解决将来在职场中可能遇到问题的机会。

总之，真实性评价不仅可以更有效地评价学生的学习效果，还能激发其更深层的参与意识和学习动机，与优先发展可转移技能、批判性思维、解决复杂问题能力等相一致。通过将学术工作与现实任务联系起来，学生更有可能看到教育的实用性，并表现出更高水平。随着教育研究越来越重视真实性评价的作用，其可能成为有效教学和学习策略中重要的组成部分^[29]。

（七）教育评价中的社会文化敏感性和公平性

在教育评价领域，社会文化敏感性和公平性（socio-cultural sensitivity and equity）对确保评价的公平性和包容性至关重要。设计具有文化包容性和公平性的评价工具，需要研究者深入理解学生群体的多样化背景、语言和学习风格等特征。这包括创建的评价工具能反映广泛而多样的文化背景，确保没有任何群体被不公平对待。例如，在测试项目中整合文化相关的事例和情境，可以使不同文化背景中的学生更容易理解,进而提高他们参与的意义和价值^[30]。

在评价工具和评价过程中减少偏见是实现公平性的关键组成部分。评价中的偏见表现为多种形式，如使用某些学生群体不熟悉或令人困惑的语言，使用不是所有学生都能理解的特定文化参考，使用对先前知识的假设等。为了减少偏见，测试设计者必须严格审查任务并在多样化学生群体中进行试测，以识别和消除偏见内容。例如，采用统计测量技术中的项目功能差异（differetial item functioning）分析，可以检测在不同子群体中表现不同的题目，并进一步完善评价。

在评价中确保社会文化的敏感性和公平性，不仅是出于公平的考虑，也是出于有效性的考虑。一个未能考虑学生多样化文化和语言背景的评价，无法准确测量学生的真实能力和知识。因此，教育工作者和评价设计者必须不断开发和实施尊重学生群体多样性的评价实践，以支持所有学生在受教育过程中并能取得成功。

（八）教育评价中的数据隐私与安全

随着数字化技术在教育领域的广泛应用，教育评价中的数据隐私与安全（data privacy and security in assessments）问题变得愈发重要。对学生而言，实施强大的数据保护对于保护敏感信息免受未经授权的访问和泄露日益迫切。这需要采用先进的加密技术、安全的身份验证过程和定期的安全检查，以保护数据的完整性和机密性。学校和教育机构必须制定全面的数据治理政策，明确数据收集、存储和访问等程序，以确保只有获得授权的人员才可以接触和处理学生信息^[31]。数字化评价中一个主要关注点是保护学生信息。数字化评价收集大量学生数据，包括测试成绩、作答模式和可能的个人识别信息等，这些都必须防止被滥用。同时，教育数字化平台必须遵循隐私保护设计原则，并将其贯穿于评价开发、实施的各个阶段，包括在必要情况下对数据进行匿名化处理、使用安全的数据传输方法、实施严格的数据访问控制以阻止未经授权的访问等^[32]。

遵守数据安全法律和道德标准是确保教育评价中数据隐私的另一项关键内容。教育机构必须遵守国家层面的有关法律要求，如美国《家庭教育权利和隐私法》（The Family Educational Rights and Privacy Act）提供关于保护学生记录的指导方针^[33]，欧盟的《通用数据保护条例》（General Data Protection Regulation）设定严格的数据保护要求，引导教育机构合法合规使用欧盟国家学生数据^[34]。遵守这些法律法规，不仅有助于保护学生信息，也有助于学生、家长和教育工作者等主体建立对敏感信息处理过程的信任。此外，在数据安全方面的道德考虑不仅仅是遵守法律要求，教育机构还必须确保数据在收集、使用和实践等流程中尊重学生隐私。通过优先考虑教育评价中的数据隐私和安全，机构不仅可以保护评价过程的完整，还可以保护学生的权利和利益^[35]。

（九）全球和跨文化能力评价

在日益交融互联的世界中，评价学生跨文化方面的能力越来越重要。全球和跨文化能力评价（global and cross-cultural competencies in assessments）旨在评价学生的跨文化能力，包括对文化差异的意识和敏感性，在多样化环境中工作的能力，以及有效进行跨文化交流与合作的能力等。该评价涉及的场景或任务通常需要学生展示在不同文化背景中对文化规范、价值观和沟通风格的理解，以帮助学生适应全球互联的社会发展要求。评价内容包括尊重文化多样性、文化适应能力，以及有效的跨文化沟通技能等^[36-37]。

在评价任务中融入多元文化视角，不仅可以丰富学生的学习体验，还可以为学生提供探索不同文化观点的机会。评价可能涉及分析来自不同文化背景的多样化信息源，如文学、艺术或历史文献。通过与多元文化视角互动，学生不仅能加深对不同文化的理解，还能发展批判性思维能力和同理心。评价任务可能要求学生比较和对比文化实践、信仰和世界观，展示他们能够欣赏文化多样性并认识跨文化互动的复杂性。

全球意识和跨文化沟通技能的评价工具对于评价学生在全球化社会中的行为表现非常重要。这些工具包括自我评价调查、同伴评价，以及衡量学生知识、态度和跨文化能力的表现性评价。例如，学生可能完成评价其全球意识水平、文化敏感度和对多样性的开放程度的调查或测验。基于表现的评价可能涉及小组项目或演示，要求学生与来自不同文化背景的伙伴合作，并有效地传达交流跨越文化的思想^[38-39]。

（十）终身学习的成果认证

终身学习的认可和认证（lifelong learning and credentialing）鼓励个人持续发展并不断获取新技能，承认各种形式的学习和证书。未来，传统的学术学位将不再是唯一评价标准，教育评价将越来越集中于通过创新方法认可和验证终身学习成果，承认通过在线课程、研讨会、职业发展项目、实际经验等多种途径获得的知识和技能。这种转变以尊重个体多样化的学习经历为前提，反映整个社会对于终身学习价值的广泛认同和对更包容的评价实践的需要^[40]。

随着教育形势的不断发展，用于技能认证的微证书和技能徽章的发展急剧增加。这些证书为通过非正式和非传统学习方法获得的特定技能和能力提供灵活、精细化的认可和认定途径。微证书通过完成聚焦于某项特定技能或主题的短期课程或任务模块，为学习者提供展示给雇主、教育机构的有形证据^[41]。

此外，认证终身学习的评价方法发挥了重要作用。这些方法超越传统的大规模考试和标准化测验，主要评价在实际环境中知识和技能的应用，包括作品集评价、体验性学习项目、基于能力的评价以及反思性文章或面试。通过整合多样化的评价方法，教育工作者能够更准确地测量学习者的能力，包括批判性思维、问题解决能力、创造力和协作能力等^[42-43]。这些能力对于在快速变化的世界中取得成功至关重要。

三、结束语

通过对教育评价十种新方法和十个新趋向的探讨和分析，本文揭示了一个由创新、教学模式转变、社会需求和持续研究所塑造的动态评价新格局。这些方法从基于项目的档案袋到基于社区的评价，可以多样化、全面地评价学生的学习进步，强调实际应用、个性化成长和包容性实践。教育评价的未来方向，如个性化学习、技术整合和全球能力评价等，凸显了教育中日益重要的优先事项和挑战。同时，这十种方法和发展方向相互关联、相辅相成，共同构成一个可以有效评价学生学习的完整框架。

随着教育环境的不断发展和变化，教育工作者必须考虑这些评价方法和方向之间的相互作用，科学利用这些方法之间的协同效应，进而创造出真实可信和有效的评价实践。通过拥抱创新、运用技术并优先考虑公平和包容性，教育工作者可以设计出真正反映学习者多样化需求和经验的评价，赋予学生更多自主权，并在不断变化的世界中培养他们终身学习的能力。

作者：熊新惠，美国教育考试服务中心（ETS），高级心理测量师

下一条：明确方向优化路径，推进教师评价改革