注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

美丽家园 魅力课程

——杭州市西湖区活动课程工作坊

 
 
 

日志

 
 

合作问题解决能力的测评:PISA2015和ATC21S的测量原理透视  

2017-08-05 09:28:15|  分类: 推荐阅读 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

  内容提要:如何利用技术测量高阶能力,是当前国际教育测评领域研究的前沿课题。PISA2015和ATC21S分别利用“人机交互”的方法和“人人交互”的方法测量了学生的合作问题解决能力。“人机交互”基于会话代理技术,将项目嵌入学生与代理的对话过程,获取学生的项目反应,推断其潜在能力。“人人交互”实时记录两名学生合作完成任务过程中的对话与关键行为,形成过程流数据,利用评分算法从过程流数据中抽取证据推断学生的潜在能力。合作问题解决能力的测评为我国教育测评领域的发展提供了以下思考:加快发展基于计算机的测评技术,加强对高阶能力的测评研究,改进测评的功能。

关键词:合作问题解决 测量方法 PISA2015 ATC21S

随着社会分工日趋精细化,交流合作成为人们工作与学习过程中不可或缺的环节,两人或多人合作解决问题成为推进工作进程的基本范式。相关理论框架表明:合作问题解决(Collaborative Problem Solving)是一种同时包含社会技能(合作技能)和认知技能(问题解决)的高阶能力。在测评领域,对高阶能力进行大规模测评突破了传统学业成就测验的局限,需要全新的测评理念、测量技术的支撑。PISA2015和“21世纪技能的评价与教学”项目(Assessment & Teaching of 21st Century Skills,简称ATC21S)基于计算机技术构建复杂任务情境,测量学生在真实任务情境中的合作问题解决能力,在国际教育测量与评价领域有着重要影响。

本文主要分析PISA2015和ATC21S的测评过程与方法,以期为促进我国教育测评理念和技术的发展提供借鉴和启示。

一、合作问题解决能力测评的背景

21世纪以来,社会的变革驱使教育思考如何为学生在未来社会中获得成功做更好的准备,并由此形成了一场以构建核心素养(也称21世纪技能)模型为代表的教育目标反思思潮。在这场反思中,对于核心技能的测评以及基于测评结果促进核心技能的培养是教育测量与评价领域需要研究的新问题。许多著名的教育测评机构和组织选取了部分核心技能进行了测评研究,比如,从2003年开始,美国教育测验服务公司(Educational Testing Service,简称ETS)一直致力于学生的信息素养(Information Communication Technology,简称ICT)测评;PISA于2003年采用纸笔形式测量了学生的问题解决能力,并在2012年基于计算机的形式测量了学生在真实任务情境中的问题解决能力;2013年,国际成人能力评估项目(Programme for the International Assessment of Adult Competencies,简称PIAAC)测量了成人在丰富技术环境下的问题解决能力。源于核心技能面向未来工作所需的愿景,同时能将多个核心素养框架都包含的合作与交流、问题解决、决策制定等技能融入合作问题解决这个简单而又复杂的概念中,因此,合作问题解决能力的测评引起了教育测评领域的重视。其中两个有代表性的大型项目分别是PISA2015和ATC21S,它们利用计算机技术构建的复杂任务情境测量学生的合作问题解决能力,在方法和技术上引领了教育测量和评价的发展,为核心素养这类高阶技能的测评提供了宝贵的经验。

(一)ATC21S项目简介

2008年,在伦敦举办的“学习与技术世界论坛”上,思科、英特尔、微软三大信息技术巨头联合发布了“评价行动倡议”,提出发展新的途径、方法和技术来测评21世纪技能,并基于评价数据帮助学校在课堂教学实践中培养学生的21世纪技能,以此促进教育系统全方位改革。在本次会议上确定实施ATC21S项目,实施周期为2009年-2012年,由澳大利亚墨尔本大学评价研究中心领导,主要参与成员包括加州大学伯克利分校、斯坦福大学、PISA、国际教育成就评价协会(IEA)等大学和组织的优秀教育测量与评价专家、教育政策专家。此外,澳大利亚、新加坡、美国、荷兰、芬兰、哥斯达黎加共16000多名15岁左右的学生参与了测验的具体实施。按照“评价行动倡议”的设计,该项目选择合作问题解决和数字化网络中的学习两种技能进行测评。

(二)PISA2015项目简介

PISA项目由于上海的两次参与并取得优异成绩而被国内社会各界广泛知晓,也因为其为各国基础教育提供可比较的统一量尺而被国际社会接受和认可。PISA2015测试项目主要侧重科学素养,还包括阅读素养、数学素养、合作问题解决能力,其中合作问题解决能力的测评在PISA2012基于计算机测评问题解决能力的基础之上,采用更加复杂的设计和技术。PISA2015测评合作问题解决能力主要有以下缘由:首先,当前世界各国的教育体系中,课程与教学改革注重培养学生的批判性思维、问题解决、合作技能,强调基于项目和探究导向的学习、合作学习,在学习过程中注重学生交流、合作完成切合学生实际的情境型任务,但又缺少评价合作技能的精确标准,在教育评价的实践中鲜见对这些高阶技能的测评;其次,现实工作环境需要员工更多地交流与合作,合作、问题解决、ICT技能是未来社会公民必需的基本素养;再次,随着评价理念的发展,标准化测验受到人们的批判,评价的基本出发点需要从“学生学到了什么”转向“学生能做什么”,大规模评价不能只关注那些容易测量的传统学科领域,需要利用新的手段和技术测评学生的高阶能力、社会技能、情感态度等。

二、合作问题解决能力的测评框架

当前,各个国家和国际组织定义的核心素养框架包含的核心技能都是高度抽象概括、结构复杂的高阶技能,这些技能既包含知识与能力层面的认知成分,又包含态度、价值和伦理规范方面的一般心理倾向。宾克利(Binkley)等人利用KSAVE模型,从知识、技能、态度、价值与伦理层面来分析核心素养框架中所包含的高阶技能,他们把每一类高阶技能所包含的成分分为三大类,分别是知识层面、技能层面(能力层面)、态度价值与伦理层面。PISA2015将合作问题解决能力定义为:个体能有效参与两个或两个以上代理的问题解决过程的能力,在该过程中他们共享达成问题解决方案所需的理解与努力,同时联合他们的知识、技能与努力来实现达成的解决方案。对于这个复杂的理论构念,PISA2015和ATC21S都认为合作问题解决既包含社会技能层面的“合作”,又包含认知层面的“问题解决”,特别需要注意的是,与交流、记忆、理解等简单技能相比,“合作”与“问题解决”也都是结构复杂的高阶能力。此外,核心素养这类高阶技能不仅结构复杂,它们与一般教育和心理测量领域中的大部分认知能力和心理特质一样,都属于学生个体的潜在特质,不能被直接地观察和测量。

如何测量合作问题解决能力这类高度抽象、结构复杂、同时又难以直接观测的高阶能力是当前教育测量与评价领域的难点问题。PISA2015和ATC21S主要通过三个关键步骤解决这个问题:首先,定义与合作问题解决这个理论构想“等同”的操作性定义框架;其次,依据操作性定义框架利用计算机技术构建复杂的任务情境,在任务情境中设置一系列基于潜在构想而产生的观察指标,每个观察指标对应操作性定义框架中的某一种技能或某一种元素;最后,在学生完成任务的过程中获取学生对系列观察指标的反应,从而对学生的潜在能力进行推论。在这一系列过程中,定义等同的操作性定义框架是非常核心的一步,它是任务设计、潜在构想推论的依据,关系到潜在构想能否有效地被测量。所谓“等同”是指操作性定义框架要包含理论构想中的所有成分,要与理论构想具有相同的结构。在教育测量的实际工作中,由于人们对理论构想的研究和理解的不同,因此会产生不同的操作性定义框架。对于合作问题解决,PISA2015和ATC21S所提出的操作性定义框架有较大区别。

(一)PISA2015测评框架

PISA2015定义的合作问题解决能力包含“合作”和“问题解决”两个维度,其中合作维度是合作问题解决能力的主线,也就是说,PISA2015合作问题解决能力的测量主要是关于合作维度的测量,并因此提出了三种核心的合作问题解决能力,包括“建立与维持共同的理解”、“采取合适的行动解决问题”、“建立与维持团队组织”。在问题解决维度上,PISA2015沿袭了PISA2012关于个体问题解决能力的认知过程模式,该过程模式定义了个体解决问题的过程:探究与理解、表征与形成、计划与执行、监控与反馈。由此,三种核心的合作问题解决能力和问题解决的四个过程交叉形成了包含12类技能的矩阵(详见表1),矩阵中的每个单元格代表一类技能。

(二)ATC21S测评框架

ATC21S定义的合作问题解决能力框架如表2所示,它将合作问题解决能力分为合作与问题解决两个部分,合作部分主要由有效参与合作所需的社会技能构成,问题解决部分主要是由解决问题所需的认知技能构成。社会技能包括参与、观点获取、社会调节三个维度;认知技能包括任务调节、学习与知识建立两个维度。每个维度包含不同的元素,一共有18种元素,每种元素的观察指标及不同的表现水平都有详细的描述。

(三)PISA2015和ATC21S测评框架比较

以上简要描述了两个合作问题解决能力框架的核心内容,由于本文侧重新测量方法的分析,因此并未对能力界定进行深入探讨,但能力框架的构成方式与测量模型的应用紧密关联。两个概念框架有相似之处,比如都认为合作问题解决都包含“合作”与“问题解决”,但关于概念的操作性定义具体构成上,又有较大的不同。PISA2015强调“合作”,以合作为主线,且将合作能力的三个维度与问题解决的四个过程交叉,形成合作问题解决能力这个整体概念的12个观察指标,这种矩阵结构方式意味着问题解决的4个过程都需要各种合作技能,其形成的12个观察指标可以更具体地解释为“在合作问题解决的某个过程所需要的某种合作技能”,也就是说,合作问题解决能力这个整体概念的每个观察点既包含合作维度的信息,又包含问题解决维度的信息。不同于PISA2015的矩阵交叉方法,ATC21S采用的是将整体概念逐层分解的方法,这种方法是对复杂概念解构的常用方法,其特点是具体观察指标(元素)只属于某一个维度,不同维度之间的观察指标从形式上来看是相对独立的。

三、合作问题解决能力测量方法与原理

合作问题解决实质上是一个交互的、联合的双线动态过程,它需要考虑学生如何推论问题,考虑学生如何与其他人交互来交流信息和规则化交互过程。由于合作与问题解决的动态性,对于不同学生的合作问题解决能力要获得较高信度和效度的测量,传统的测验形式难以满足其测验要求。首先,合作问题解决能力体现于完成任务、解决问题的动态过程,如何实时记录其过程并对合作问题解决能力做出有效推论是首先需要考虑的问题;其次,正如核心素养(21世纪技能)所强调的来源于社会和生活实际,对合作问题解决能力的测量也需要在真实情境中进行,所构建的合作情境与设计的问题任务都需要与其生活、学习紧密相关。基于计算机的测评能提供复杂的、真实的任务情境支撑问题解决的过程,能动态采集密集型过程数据,经过精心设计的评分算法抽取高阶能力的观察指标并进行赋值,从而对个体高阶能力进行基于证据的有效推论。PISA2015和ATC21S都是通过构建复杂任务情境来支撑学生合作问题解决过程,它们的基本原理相同,但具体实现方法不一样,PISA2015采用人-机交互(Human-to-Agent,简称H2A)模式,而ATC21S采用人-人交互(Human-to-Human,简称H2H)模式。

(一)PISA2015的H2A模式

H2A模式的测验过程是学生与代理对话解决问题的过程。代理指的是在任务情境中设计的具有一定智能的虚拟人物,根据任务的设计,它模拟被测学生的搭档扮演一定角色,如同学、老师、家长等。在合作问题解决过程中,被测学生需要与代理进行对话交流,建立对问题的共同理解、明确任务目标、达成解决方案、采取一致的行动等,共同推进问题解决的进程。根据任务设计的需要,可以有两个或更多个代理,犹如现实当中多人小组共同完成某个任务,不同的代理分别担任不同的角色。为了更清楚地说明PISA2015的测验形式,我们以PISA2015所释放的样题为例进行说明,表3为该样题所设计的任务的大致描述。该样题的测试过程中的某个界面上,左边是学生与代理(也就是另外3位学生和1位老师)之间的对话区域,在该区域上方可以查看参与合作的成员以及他们之间对话的历史记录,下方是根据当前会话进程提供的一些选项,被测学生可以选择其中某个选项作为对代理的回答,代理会根据学生的选项自动做出反应;界面的右边是任务区域,在该区域学生为完成任务可以进行各项操作,任务的进程与会话的进程同步。

H2A模式主要采用会话代理技术,合作成员之间的对话流程与路径都是事先精心设计好的,因为学生与代理对话过程中学生的反应是选择性的,代理对学生的反应也是设计好的,所以对话的流程是一个有固定分支路径和多个节点的交互过程。每个节点相当于一个试题,对应于操作性定义框架中的某个观察指标(也就是表1所示12种技能中的某一种)。对参与测试学生的合作问题解决能力的测量体现于学生在每个节点上所作出的不同反应,也就是选择的不同选项,类似于传统测验对某个试题的作答,作为推论合作问题解决能力的直接证据。依据PISA2015的设计,技能矩阵中的每项技能需要有多个测验反应。在获取学生对测验项目的反应模式之后,与PISA其他认知测验类似,采用项目反应理论(Item Response Theory,简称IRT)模型估计学生合作问题解决能力的得分。

(二)ATC21S的H2H模式

H2H模式是指“人-人”交互模式,即两名学生构成一个小组合作完成任务,达成共同的目标,两名学生需要交流他们各自了解的信息、知识和对问题的理解,协商制订计划,分工协作,积极深入地参与问题的解决,促进问题从起始状态转向目标状态。在测试过程中,两位学生每人操作一台计算机,系统为每位学生呈现一个操作界面,学生在系统中通过对话交流信息、讨论解决方案、制订计划、确定操作步骤,依据确定的方案和计划完成各自操作,最终达成他们共同的任务目标。ATC21S共设计11个任务,这些任务可分为与学科无关的任务和与学科有关的任务。与学科无关的任务主要强调归纳与推理,不需要学生的学科知识;与学科有关的任务是以学科知识为支撑,测量学生的合作问题解决能力。按照任务的形式,ATC21S的任务可分为两类:一类是对称型任务,两名学生的任务界面呈现相同的信息,共享相同的资源等;另一类是非对称型任务,两名学生的任务界面分别呈现不同的信息,提供不同的资源,以此增加他们之间合作的需要。表4是对ATC21S所设计的一个对称型任务的简要描述,该任务的界面截图,图的左边为学生A所能看到的画面,右边为学生B所能看到的画面,呈现给两名学生的内容是相同的,包括小组任务说明、12个小球、1个“小丑”机器人、用于交流的对话框。

在ATC21S的人与人交互测验模式中,测试系统会实时记录两位学生的关键操作行为和对话内容,比如图1所示任务中学生拖拽小球、小球掉落的位置、两位学生发送的对话内容等,并将操作行为与对话内容采用统一的事件编码记录到数据库或日志文件中,以此形成合作问题解决的过程流数据,然后根据以前设计好的评分算法从过程流数据中抽取与表2操作性定义框架中对应元素的指标并进行赋值,作为推论学生合作问题解决这种潜在能力的证据,与PISA2015一样,相当于获得了项目反应理论中学生对项目的作答,最后可以利用IRT模型估计学生的量尺分。此外,ATC21S会利用相同或者不同的评分算法从他们合作完成问题解决的过程数据中同时抽取两名学生的观察指标,这样就能够同时测量两名参与学生的合作问题解决能力。

评分算法是H2H测验模式的关键。它基于学生真实合作问题解决的密集型过程流数据定义潜在能力的观察指标,获取学生在项目水平上的反应模式,从而能对潜在能力进行推论,所以它是推论的直接证据。一般来说,该任务情境中的每个观察指标都需要设计一个独立的算法,评分算法的有效性关系到算法产生的指标是否能与表2操作性定义框架中的元素相匹配,从而关系到整个测验对潜在能力测量的效度,算法的不同赋值方式决定了项目不同形式的原始分,不同算法之间的独立性关系到IRT测量模型中项目独立性的假设是否满足,评分算法在不同测验学生之间的一致性关系到测验的项目功能差异,因此评分算法设计是H2H模式任务情境设计的核心内容。

(三)PISA2015和ATC21S两个项目的测量原理分析

尽管PISA2015和ATC21S两个项目对合作问题解决测量采用两种不同的模式,但它们背后的测量原理是相同的,测量的基本模型都是基于项目反应理论。对于合作问题解决这类高阶能力的测量,由于其自身结构的复杂性,项目反应理论难以像传统认知测验一样直接应用,而是需要复杂的设计产生对应于高阶能力结构的系列观察指标,也就是项目,从而能对个体的潜在高阶能力进行有效推论。在这一点上,PISA2015和ATC21S两个项目的做法是相同的,图1概括了PISA2015和ATC21S两个项目对合作问题解决能力测量的基本原理。首先依据合作问题解决能力的操作性定义框架,利用计算机技术构建复杂任务情境,任务情境中的总体任务可以看做是一系列子问题的组成,小组成员在合作解决问题的过程中,记录他们的对话和关键操作行为,形成序列数据,然后根据设计好的过程数据和观察指标(也就是项目)之间的评分算法,从记录的序列数据中抽取观察指标,再利用项目反应理论测量模型对学生的合作问题解决能力进行推论,估计出合作问题解决能力的量尺分。在该原理图中,稍有差异的是:PISA2015记录的数据是学生在项目上的直接作答反应,记录的数据和项目是一对一的关系,不需要评分算法;而ATC21S需要评分算法从系列数据中抽取指标,记录的数据和项目可能是多对一关系,也可能是一对一的关系。

(四)PISA2015和ATC21S两个项目的测量方法评析

前文主要呈现了PISA2015和ATC21S两个项目测量合作问题解决能力的一般方法和过程,它们采用的具体方法有较大的不同,在合作方式、小组构成、合作小组内被测学生数量、对话交流类型、观察指标的来源以及合作的具体体现等方面有各自的特点,表5呈现了它们之间的主要区别。

对于H2A模式和H2H模式,研究者们在探讨合作问题解决的测量应该采用哪一种方式时,呈现出三种不同的观点:PISA2015认为H2A模式最大的好处是能避免小组构成的问题,因为在H2H模式中小组成员能力水平的不同可能会影响个体和小组合作问题解决的表现,从而影响个体能力的估计,而H2A模式为每位参与测试的学生提供了等同的小组构成,同时认为H2A模式可以根据需要虚构多个小组成员参与合作;ATC21S指出H2A模式中的交互不能等同于真实世界中的合作,认为H2H模式是对真实情境中合作能力的有效测量,与H2A模式相比,具有更高的效度,同时指出不同小组成员的构成对能力估计的影响需要进行更加深入的研究加以解决;培生集团(Pearson)的罗森(Rosen)基于H2A模式和半标准化的H2H模式测量了学生的合作问题解决能力,认为应用H2A模式展示学生的合作问题解决能力提供了更多可能性,同时指出两种模式都存在其固有的局限,需要更多深入的研究来证明两种方法的效度。

四、对我国教育测评发展的启示

我国是一个考试大国,但教育测量与评价的理念、技术、方法发展相对落后。合作问题解决能力的测评理念和方法是当前国际上教育测评领域发展的新动向,本文通过分析合作问题解决能力测评的背景,详细剖析这类复杂高阶能力的测量方法与过程,以期对我国教育测评的发展有所启示。

(一)发展基于计算机的测评技术

在我国教育测评实践领域,不管是高利害的大规模考试,还是检验阶段性教学效果的阶段性考试,纸笔测验由于技术实现简单、操作方便、成本低等天然优势成为各类考试沿用的主要形式,但纸笔测验也有其固有的缺陷,比如测验的内容有限,试题形式固化,难以实时地展现和记录学生在真实情境中解决问题的思维过程和情感态度变化轨迹,不能为改进教学及时提供更多有用的反馈信息等。2010年,为促进实施“力争上游计划”和“共同核心州立标准”,美国联邦教育部部长邓肯呼吁发展“下一代评价”,美国以为大学和职业做准备的评价联盟和智能均衡评价联盟两个项目为依托,发展基于计算机的测量技术,支持复杂能力和高阶技能的测评,为教师的教学和学生的学习提供诊断,以评价改革促进基础教育系统性改革,最终让学生在大学和工作岗位上取得成功。最近几年,世界范围内知名的测验组织和机构纷纷致力于“下一代评价”的研究与实践,比如ETS和培生集团投入较多的资源研究“下一代评价”技术,PISA2012、PIAAC2013、NAEP相继开展了问题解决能力的测评,PISA2015和ATC21S开展了合作问题解决能力的测评。总体来看,“下一代评价”的基本出发点是发展基于计算机的测评技术改进教育评价系统,以此回应时代的发展驱使教育改革的现实需要,也代表着教育测评的发展趋势,我国教育测评领域需要紧随其发展步伐。

(二)加强对高阶能力的测评研究

按照课程标准的三维目标要求,教育需要关注学生知识与技能、过程与方法、情感态度价值观的同时达成,当前的教育目标强调核心素养培养。教育测量与评价是检验教育目标达成、改进教学效果的手段和方法,但是在我国的教育测评实践中,当前大规模测验测量的内容多为记忆性知识和低层次认知能力,对于学生的高阶思维能力、真实情境中的问题解决过程以及学生的社会技能、情感、态度、价值观等方面的潜在特质在各类测验中鲜有涉及,正如思科、因特尔和微软在“行动倡议”中所批判的,当前的教育测评局限于容易测量的内容,而不是重要的需要测量的内容,同时指出,新的评价要测量面向未来所需的核心技能,要为学生的学习、教师的教学以及教育政策的制定提供更多信息。基于计算机的问题解决、合作问题解决的测评为测量以前难以涉及的高阶能力和社会技能提供了新的思路,PISA等权威大型测验的实施也证明了高阶能力和社会技能的可测性,我国的教育测评领域需要以此为借鉴,加强对核心技能的测量研究,特别是加强高阶认知技能、社会技能和情感态度的操作性定义框架研究,由此拓展测评内容,延伸教育测评的覆盖范围。

(三)改进测评的目的

ATC21S项目的全名是“21世纪技能的评价与教学”,它在注重测量方法创新的同时,强调对合作问题解决能力等核心技能测评的诊断功能,强调测评结果要落实到教学的实践中去,评价要为教学服务,为学生核心技能的形成服务。教育测评的目的主要有鉴别不同水平的学生,诊断可能存在的问题,为改进教学过程提供反馈信息,最终促进学生的发展。但我国以高考、中考为代表的各类测验主要为升学服务,为检验教学目标达成服务,造成“考试考什么、老师就教什么、学生就学什么”的局面,其对教育生态的异化一直受到诟病。美国实施《不让一个孩子掉队法案》之后,基于教育问责需要而推行的标准化测验严重损害了美国中小学的课堂教学,迫使教师和学生过分追求分数。邓肯在呼吁发展“下一代评价”时指出,新的测评要为教师教学服务,要提供高质量的形成性评价追踪学生的发展轨迹,改进教学策略、提升教学效果,为学生、家长、教师提供及时的反馈信息,为学生未来的成功服务。当前,我国进入提升教育质量的关键期,评价由于具有重要的导向功能,因此,重新审视教育测评理念、改进测评的功能对提升教育质量有着重要影响。在新测评技术发展的基础上,逐渐完善测评的诊断和改进功能,努力提升测评为教师教学和学生学习的服务水平,对改进教与学的过程、提升教学质量有重要的意义。

  参考文献(略)

作者:袁建林 刘红云   来源:《外国教育研究》 2016(12)

  评论这张
 
阅读(1579)| 评论(0)
推荐

历史上的今天

评论