技术驱动下的教学评价国际动向研究
摘 要:教育大数据和人工智能等技术的迅速发展为教育领域不断赋能,促使教学评价逐步从以主观感知为参考转向以客观证据为抓手。为把握国际环境下技术支持教学评价的进展与前沿动向,以科学网数据库的核心合集为数据源,采用共现网络分析、聚类分析、知识图谱等方法,对该领域的现状概况进行量化和质性分析,并梳理其发展脉络与前沿演进。发现其研究趋向如下:一是评价数据源以全数据思维为导向,将量化形式的大数据和质化形式的厚数据相结合;二是评价方式从以学生评教为主的横向评价转为以教师自身教学效能增幅为主的增值评价;三是评价方法从主观感知转为证据驱动,采用多重测量方式对教师进行全方位、立体化、可视化的教学评价;四是评价工具的开发逐步转向实现多源数据配准统一的全数据智能化测评平台;五是评价结果趋向于形成性、伴随式的动态评估,关注教师教学投入和教学效能的变化态势,辅助教师诊断并优化教学。
关键词:教学评价;数据驱动;技术环境;智能测评;评价方法
中图分类号:G434
文献标志码:B
文章编号:1673-8454(2023)08-0022-09
作者简介:牟智佳,江南大学“互联网+教育”研究基地副教授,博士(江苏无锡 214122);高雨婷,江南大学“互联网+教育”研究基地硕士研究生(江苏无锡 214122);吴宝锁,江南大学教务处助理研究员,共同第一作者,硕士(江苏无锡 214122);刘珊珊,江苏省锡山高级中学实验学校教师,硕士(江苏无锡 214177)
基金项目:2022年度江苏省社会科学基金课题一般项目“基于教育大数据的江苏高校教师增值评价研究”(编号:22JYB017);2022年江苏省高校“智慧教育与教学数字化转型研究”专项课题“智能学习平台赋能研究性教学研究”(编号:2022ZHSZ26)
一、研究背景
教学评价作为教学过程的组成部分,为持续改进教学发挥着重要作用,同时也为教师问责提供了必要的数据支持[1]。使用有效的评估技术可以提高教师对学生学习需求的理解,能够对以学习者为中心的教学模式起到支撑作用。如何使用评估技术,对教学和评估之间的反馈循环显得尤为重要。中共中央、国务院印发的《深化新时代教育评价改革总体方案》中提出,要充分利用现代信息技术,探索提高教育评价的科学性、专业性、客观性的有效手段[2],这进一步肯定了信息技术所发挥的作用和价值。信息技术要在结果评价、过程评价、增值评价、综合评价等方面进行深入推进,特别是在创新评价工具和支持评价实践方面发挥独特作用。
随着教育大数据与人工智能技术的逐步发展,教学评价逐步从主观感知走向客观证据,形成新的教学评价范式,信息技术支持下的教学评价正在悄然发生变化。基于此,从国际视角对技术驱动下的教学评价研究进行梳理,追踪其发展演变,把握其前沿动态,进一步明晰技术改善教学评价效能的实践轨迹,可为信息技术与教学评价的深入融合提供新的思路。
二、数据来源与研究方法
(一)数据来源与处理
为了能够对国际在线教学评价的研究进行系统分析,在研究样本数据的采集上,主要采用PRISMA流程对科学网数据库的核心合集进行数据采集,随后对所得到的文献进行人工筛选和标注,导出文献的检索记录,记录内容包括全记录和引用的文献,导出格式为“.txt”的文本文件,以备后续分析使用,其流程如图1所示。
图1 PRISMA文献处理流程
根据研究的需求,将筛选主题分别设置为teaching evaluation、teaching assessment、input of teaching、teacher result evaluation、teacher process evaluation、comprehensive evaluation of teachers、teaching quality等,搜索样本数据库之后,通过人工筛选出涉及采用技术手段的教学评价相关文献,共获得1032篇文献,剔除无作者文献、会议通知、Workshop等非研究性文献,共得到有效文献995篇。
(二)研究工具与方法
本研究借助VOSviewer、CiteSpace、Histcite等软件的词频和共词分析功能,实现对作者、机构、 国家合作网络分析、关键词聚类分析以及文献引证分析。
研究过程主要包括以下五个方面:一是从选定的数据库中下载有关在线教学评价的文献和题录;二是将下载的题录数据进行格式转换,以匹配后续使用的工具软件来进行定性与定量分析;三是将字段中包括作者、关键词、发表年限、文献摘要等有效信息进行抽取,并为后续的频次统计作准备;四是运算频次排列表中的条目元素,并构建知识单元的共现矩阵;五是通过可视化分析呈现最终效果,生成共现知识网络图谱,探讨技术支持下教学评价研究的热点内容和发展趋势。
三、研究结果
(一)国籍与作者分析
首先通过对研究者国籍/地区的分析,可以发现不同国家对技术支持下的教学评价领域的贡献程度,以及各个国家之间合作关系的亲疏程度。使用VOSviewer的 Full counting算法,可得到发文量排名前26个国家的合作关系数据,其中“minimum number of documents of a country”(单个国家对应的最少文档数量)的值越大,符合条件的国家越少。为了使图中能够呈现出关键的要素节点,以及直观地展示出各要素节点间的亲疏关系,本研究将该值设置为“4”,最终得出一个包含26个国家节点的网络知识图谱,如图2所示。
图2 研究者国籍(地区)的共现网络分析
可以看出,美国在该研究领域的成果颇丰,中国的贡献和影响紧随其后,西班牙、澳大利亚、英国、德国等在该领域也有一定的贡献。其中,美国—加拿大、德国—英国、德国—荷兰三组国家之间的合作较为紧密,其次是中国—英国、美国—英国。除此之外,发文数量前六的机构全部来自高校,美国佛罗里达大学(University of Florida)是该领域研究贡献最大的机构,其发文量位居榜首。
之后,使用作者共现功能对该领域高产作者及分布情况进行分析,对发文量排名前十的研究者进行统计分析,结果如表1所示。研究发现:库玛尔(Kumar)以4篇论文领先,黄跃民、艾伯特(Albert)、拉格(Ragad)紧随其后,均发文3篇。根据普赖斯定律,核心作者发文量M=0.749×,其中Nmax表示该领域最高产作者的发文量。若作者发文量大于M,则可判断其为该领域的核心作者[3]。结果发现,最高产作者库玛尔的发文量为4篇,M≈2篇。发文量超过2篇的4位作者可看作是核心作者,占所有作者的0.13%,共发文13篇,占总论文量尚不足50%。可见,国外教学评价领域尚未形成核心作者集群。但从总链接强度和总被引频次可以看出,研究者玛格丽特(Margarita)和古丁(Gooding)在此领域具有重要影响力,他们分别研究社交媒体对教师评价与课程提升的作用,以及不同类技术在医学教学评价中的应用方式与效果。
表1 发文量排名前10位的核心作者
(二)关键词热点分析
利用VOSviewer对关键词词频统计分析,得到3248个关键词序列表,进行标准化后提取频次不小于7的前98个关键词。基于分析结果可知:从学段情况来看,技术支持下的教学评价主要应用于高等教育研究领域,这与MOOC、混合式学习、在线学习、智慧校园等“互联网+教育”在高校的大力开展有一定关系。其中,评价方式主要包括以教师自评为主的内部评价和以学生评价、教师互评、督导评价为主的外部评价。从学科领域来看,所涉及领域的关键词中,频次占比最高的是医药学、物理学、语言学等。上述领域的教学评价多以计算机技术平台为依托,采用视频录像、节点编码、算法评估、循证评价等流程开展[4]。此外,提升课堂教学、教学策略、交互学习环境、教育学策略、标准化评价这五个关键词的频次位于前20名,可以看出当前技术支持下的教学评价目的已转为以学生发展为重心的发现教学问题、改善课堂教学质量,评价内容中最为重视的是教学策略,评价场域中频次最高的是网络学习、互动学习环境,评价方式为贯穿教学全过程的形成性评价。
(三)被引文献分析
为了解技术驱动下的教学评价的核心文献及其在发展历程中的推动作用,我们对该领域文献的引证关系进行了分析并绘制出发展脉络,如图3所示。图3中的一个节点代表一篇文献,连线代表二者之间存在引证关系,节点的圆圈大小代表该文献的本地引用次数,圆圈越大,说明该文献受到本领域的关注度越高。其中,编号“525”的文献对应的圆圈最大,说明“525”对应的文章《教师教学效果的元分析:学生对教学评分的评价与学生学习无关》(Meta-analysis of Faculty’s Teaching Effectiveness: Student Evaluation of Teaching Ratings and Student Learning are not Related)在所有导入的文献中受到的关注程度最高。该文献对学生评教分数与学生学习结果、职业成功的相关性进行大样本分析,得出二者并无显著相关性的结论,以此呼吁教学机构放弃以学生教学评价分数作为衡量教师教学效果的标准[5]。其次是编号“487”对应的文献《为什么好的教学评价可能会奖励坏的教学:论学生评价的分数膨胀和其他意外后果》(Why Good Teaching Evaluations May Reward Bad Teaching: on Grade Inflation andOther Unintended Consequences of Student Evaluations)。该文献讨论了大学管理者将重要的人事决策建立在学生对教学评价上的政策含义,表明评教导致的宽松评分对学生后续课程中的表现呈负相关,因此学生评教的模式并不利于教学相长[6]。可见,技术驱动下的教学评价研究是基于传统教学评价中的现实困惑产生的,是教学评价发展的必然趋势。
图3 教学评价文献的引证关系
(四)技术环境分布
教学实践中的技术环境对优化教学活动的效率与效果有着重要的支撑作用。进一步对研究文献摘要中的技术关键词进行提取分析可以发现,随着多媒体教室、校园网建设等硬件技术的发展和普及,支持教学评价的软技术环境不断推陈出新成为研究热点。根据技术功能层次的不同,国际教学评价所依托的软技术主要包括四类:一是基础层次的技术环境,主要由信息通信技术、无线网络技术、移动传感技术、计算机技术、基于轨迹的技术构成;二是主体层次的技术环境,主要由语言识别技术、面部表情识别技术、图像显示技术、资源配置技术、分类技术、虚拟仿真技术构成;三是分析层次的技术环境,主要由数据挖掘、数据分析、数据驱动、关联规则挖掘、人工神经网络构成;四是应用层次的技术环境,主要由云计算平台、群智能算法、教学和监督评估系统、层次分析法、分位数回归分析、基于模糊语言概念格的多媒体教学评估方法构成。
总体来看,国际上的教育研究者已经很少关注教学评价的概念、意义,而是更多地探索适合的技术在教学基本环节的应用。在相关研究中,所涵盖的前沿技术、算法基本全面,呈现从单一技术向多技术融合扩展的趋势,但采用的数据源较为单薄,尚未达到证据驱动的要求。在测评工具方面,已有的测评平台多为各个学校、机构的自主化测评平台,大规模应用方面的研究并不多,技术环境与教育评价融合实践中的难点仍有待突破。
(五)分析方法比较
对文献中所涉及的分析方法及应用案例进行归类总结,可以发现技术支持下的教学评价分析方法主要包括三大类,如表2所示。第一类是智能诊断的测评框架。此类方法注重数据环境的适应能力,以便在更广范围内使用;第二类是统计分析的评价模型。此类方法注重对不确定性、过程性的内容进行分析,以促进评价公平;第三类是数据挖掘的预测算法。此类方法注重基于多模态数据对教学主体进行监督预测、反馈优化,以满足其个性需求。
表2 技术驱动下的教学评价分析方法梳理
(六)前沿演进规律
教学评价已经从早期的价值反思过渡到定性和定量研究相结合的实证分析,根据研究内容的差异,研究技术和研究方法上有不同侧重。为进一步梳理其演进规律,本研究借助CiteSpace工具的关键词聚类功能,对在技术支持下的教学评价按照时间线进行可视化分析,结果如图4所示。其主要分为三部分:一是标签。右侧的标签为全部文献关键词的聚类结果,图中英文标签为该列所对应时间出现的新关键词;二是时间线。该图从左至右代表时间从1992到2022年分布;三是弧线。代表关键词之间的联系,从整体趋势来看,技术支持下的教学评价文献数量呈正态分布,但总体变化较为平稳,说明该领域仍具有一定的探索价值。
图4 教学评价文献的关键词时间线
从时间段落来看,早期(1992—2002年)的研究,侧重教学评价理论探讨和技术系统宏观设计,包括教学效率、全体教员评估、性别带来的教学评价差异、全体教师评估等。该部分文献较少,多基于对教学评价概念、意义的理解,将统计学技术与教学评价相结合,为接下来的深入探索和应用打下基础。
中期(2003—2012年)的研究,侧重技术、算法与教学评价的结合,包括在线评估、自适应教学评价、错误诊断等。但部分学者对相关问题的研究主要停留在理论设计层面。例如,基于可靠性分析的现代信息技术教学质量评估改进、构建教学评估模型、基于认知负荷理论的动态教学质量评价、基于熵理论的高校教学综合质量评价等[16]。这类研究未能和教学评价的实际情况充分结合,缺少能够运用于教学评价的实际应用。因此,需要增强技术支持教学评价研究的实践性,提升评教实践对理论研究的反向作用力,从而实现技术方法和评教过程的深度整合。
后期(2013—2022年)的研究,延续了中期对技术的研究热情,并且在研究中较少探讨评价技术的意义问题,而是更多地探索技术在教学评价实践中的具体应用。主要体现在教学评价研究与学科教学的紧密结合,以及基于技术对教学动机、认知等内隐指标的挖掘、表征与评价。随着经济学的地位不断上升,教学评价也受到新自由主义的影响,各种技术算法被用于解决教育决策问题的同时,关于技术滥用与伦理问题也被广泛讨论。
四、研究趋向
(一)教学评价数据源:教学大数据与教学厚数据的整合
教学大数据与厚数据是教学评价研究中的一极两仪,二者融合互补、相辅相成[17]。教育大数据主要包括:整个教育活动中满足教育研究需要,并且对教育发展具有潜在价值的所有数据的集合。特里西娅(Tricia)认为,教学厚数据主要是指利用人类学中的定性研究法,来揭示教学情感、教学故事和教学意义的数据。教育大数据具有标准化的特征表现,对基于统计学分析产生的结构化数据进行描述,强调事物产生结果和发展过程的相关关系。依据大数据进行事实判断和预测时,需避免过度信任其呈现结果而造成误判。
而教育厚数据具有个性化的特征表现,对基于教学活动中产生的非结构化数据进行阐述,强调不同数据之间的因果联系。教学厚数据的出现,辅助研究者探知教学主体的个性需求、感知智慧教育的发展趋势,在教育信息化发展过程中具有重要价值。因此教育评价在采集数据源时需要贯彻全数据思维,将大数据和厚数据进行有机融合,将质性分析与量化分析进行联动处理,充分反映不同教育数据节点之间的量化关系和社会背景,帮助教育研究者更全面、深入、立体地从数据中挖掘教育活动背后的特征和规律。
(二)教学评价方式:面向教学效能的增值评价
教师的增值评价与发展性评价理念相契合,关注教师教学效果、专业技能、水平能力等方面的发展。增值评价以教学效能的原始输入值为起点,教学投入后的效能实绩为终点,以全过程教学链中教学效能的始末差值为增值评价的导向依据,重点关注教师在教学过程中的教学投入与教学效能变化,从而对教师的教学表现进行以个体发展为尺度的纵向评价[18]。增值评价是以教师个人的成长发展为参考对象,摆脱了传统评价中以教师群体为对象,以考核评级为目的,以名次排名、等级划分为形式的弊端,增强了教学评价的客观性和公平性。
(三)教学评价方法:证据驱动的多重测量方法
证据是可获得事实或信息的集合,可以有效证明事件或观点的真实性和有效性。教学评价证据是教与学全过程链中所有数据信息的集合,对教学进行多维评价,要求将不同情境下教与学的显性数据和隐形数据进行提取整合,将其转化为机器可读的形式。多源传感器采集的异构数据源包含结构化、半结构和非结构等多种类型。为保证教学评价的精准性,分析时倾向以教学过程中的全体数据作为数据基础而非抽样数据,以相关分析作为分析方法而非因果分析,以追求促进教师发展作为分析理念而非完全指向教学管理效率。
(四)教学评价工具:数智融合下的智能化教学测评平台
随着智慧校园建设的不断推进,以及大规模在线课程的快速发展,教学系统管理逐步实现自动化和数字化的同时,也产生了许多有价值的数据。相对于人工决策的模糊性、主观性,智能测评计算平台通常基于系统科学理论进行宏观架构,采用云计算、云存储、分布式处理技术,将教学过程中获取的多渠道、多模态数据进行快速存储、管理、整合、分析、反馈[19]。在计算平台研发日益增多的趋势下,对于隐私保护的讨论和研究也在持续推进。例如,使用去中心化的架构来避免单点隐私泄露风险。除了寻求数据价值与隐私保护间的平衡,寻求相对公平与个性需求间的平衡,以及技术导向与人文情怀间的平衡也会成为研究的重点。
(五)教学评价结果:基于动态评估的持续改进
动态评估理论源于前苏联心理学家维果茨基(Vygotsky)提出的社会文化理论。在评估被评者的能力时,既要评测其完成特定任务的能力,也应考察其与社会环境互动、与他人合作时在动态变化中的学习能力。动态评估侧重教学评价中的诊断、分析、改进功能,旨在达到以评促教、以评促学的效果。教学评价不能仅仅停留在对教学现象的表层评估,更要最大限度地挖掘和评估实际教学背后所反映出的能力、潜能的变化与发展,以便全面评估教师教学能力发展。动态评估的动机是弥补传统静态评估的不足,后者无法提供有关教师教学能力、特定认知技能缺陷和变化过程的准确信息。动态评估侧重评估教师教学发展潜能的动态变化,与形成性评价中关注持续发展的特征相契合[20]。教学评价在短时间内属于静态评估,无法获得真实值,需要在实际中多次考核形成动态的伴随式评价,有助于教师持续改进自己的教学策略。
参考文献:
[1]REYNOLDS C, LIVINGSTON R, WILSON V. Measurement and assessment in education[M].Boston: Pearson, 2009:37-38.
[2]新华社.中共中央 国务院印发《深化新时代教育评价改革总体方案》[EB/OL].(2020-10-13)[2022-10-25].http://www.gov.cn/zhengce/2020-10/13/content_5551032.htm.
[3]陈悦,陈超美,刘则渊,等.CiteSpace知识图谱的方法论功能[J].科学学研究,2015,33(2):242-253.
[4]LI M, SU Y. Evaluation of online teaching quality of basic education based on artificial intelligence[J]. International Journal of Emerging Technologies in Learning, 2020(15):147-161.
[5]UTT B, WHITE C A, GONZALEZ D W. Meta-analysis of faculty’s teaching effectiveness: student evaluation of teaching ratings and student learning are not related[J]. Studies in Educational Evaluation, 2017(54):22-42.
[6]STROEBE W. Why good teaching evaluations may reward bad teaching: on grade inflation and other unintended consequences of student evaluations[J]. Perspectives on Psychological Science, 2016(11):800-816.
[7]NOBEN I, MAULANA R, DEINUM J F, et al. Measuring university teachers’ teaching quality: a Rasch modelling approach[J]. Learning Environments Research, 2021(24):87-107.
[8]WANG Z, LIU J. A teaching quality evaluation system of massive open online courses based on big data analysis[J].International Journal of Emerging Technologies in Learning, 2019(14):81-91.
[9]BRAUN H I. Using student progress to evaluate teachers: a primer on value-added models[R]. Princeton: Educational Testing Service, 2005.
[10]MAMAS C. Teaching contested narratives: identity, memory and reconciliation in peace education and beyond[J]. Journal of Education for Teaching International Research & Pedagogy, 2013(1):250-252.
[11]BORKULO S P, JOOLINGEN E R, SAVELSBERGH E R, et al. What can be learned from computer modeling? Comparing expository and modeling approaches to teaching dynamic systems behavior[J]. Journal of Science Education and Technology, 2012(21):267-275.
[12]HOU J, JIA K, JIAO X. Teaching evaluation on a WebGIS course based on dynamic self-adaptive teaching-learning-based optimization[J]. Journal of Central South University, 2019(26):640-653.
[13]MOYAN L, YAWEN S. Evaluation of online teaching quality of basic education based on artificial intelligence[J]. International Journal of Emerging Technologies in Learning, 2020(15):147-161.
[14]MA H Y, CHENJ K, YANG N, et al. Application and study of ordinal decision tree in the teaching quality evaluation[J]. Journal of Applied Sciences, 2013,13(19):3903-3908.
[15]WANG B, WANG J, HU G. College english classroom teaching evaluation based on particle swarm optimization-Extreme learning machine model[J]. International Journal of Emerging Technologies in Learning, 2017(12):82-97.
[16]THANASSOULIS E, DEY P K, PETRIDIS K, et al.Evaluating higher education teaching performance using combined analytic hierarchy process and data envelopment analysis[J]. Journal of the Operational Research Society volume, 2017(68):431-445.
[17]涂涛,胡柯铭.一极两仪:教育大数据与厚数据关系辨析[J].中国电化教育,2019(8):18-22.
[18]GUARINO C M, MAXFIELD M, RECKASE M D, et al. An evaluation of empirical bayes’s estimation of value-Added teacher performance measures[J]. Journal of Educational & Behavioral Statistics, 2015,40(2):190-222.
[19]WANG Z, LIU J. A teaching quality evaluation system of massive open online courses based on big data analysis[J]. International Journal of Emerging Technology in Learning, 2019(14):81-91.
[20]ZENG Y. Evaluation of physical education teaching quality in colleges based on the hybrid technology of data mining and hidden markov model[J]. International Journal of Emerging Technologies in Learning, 2020(15):4-15.
Research on the International Trends of Technology-Driven Teaching Evaluation
Zhijia MOU1, Yuting GAO1, Baosuo WU2, Shanshan LIU3
(1.Research Center of “Internet Plus Education”, Jiangnan University, Wuxi 214122, Jiangsu;
2.Academic Affairs Office, Jiangnan University, Wuxi 214122, Jiangsu;
3.The Experimental School of Jiangsu Xishan Senior High School, Wuxi 214177, Jiangsu)
Abstract: The rapid development of education big data, artificial intelligence and other technologies has continuously empowered education, which has promoted the transformation of teaching evaluation from taking subjective perception as a reference to taking objective evidence as a starting point. In order to understand the progress and dynamics of technology support teaching evaluation in the international environment, the core collection of Web of Science database is used as the data source, and methods of concurrence network analysis, cluster analysis, knowledge graph, etc. are used to make quantitative and qualitative analysis of the current situation in this field, and sort out its development context and frontier evolution. After in-depth analysis, the research trends in this field are obtained as follows: (1) The evaluation data source is oriented by full data thinking, combining big data in quantitative form with thick data in qualitative form; (2) The evaluation method has changed from a horizontal evaluation based on students’ evaluation of teaching to a value-added evaluation based on teachers’ own teaching efficiency growth; (3) The evaluation method has changed from subjective perception to evidence-driven, using multiple measurement methods to conduct all-round, three-dimensional and visual teaching evaluation for teachers; (4) The development of evaluation tools has gradually turned to a full data intelligent evaluation platform that realizes multi-source data registration and unification; (5) The evaluation results tend to be formative, concomitant and dynamic evaluation, with attention being paid to the changing trend of teachers’ teaching input and teaching efficiency, in order to assist teachers to diagnose and optimize teaching.
Keywords: Teaching evaluation; Data driven; Technical environment; Intelligent evaluation; Evaluation method
编辑:李晓萍 校对:王天鹏
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性质的教育和科研之目的,并不意味着赞同其观点或者证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。