深度学习技术与试题难度预估：语义模型的构建

报告人：江哲涵

报告地点：腾讯会议ID：892233931

报告时间：2021年11月05日星期五10:00-11:00

报告摘要：

深度学习技术已逐渐深入教育测量技术，其自然语言处理的优势在大规模、高厉害考试情境下有极大的效用。本文将相应技术用于全国临床水平测验-理论考试的难度预测，以更精确控制考试整体难易度。通过构建自然语言处理框架、从试题自身特征和试题语义信息的进行试题难度预估的建模，并将人为（考务专家）判定结果与（预实验）实际难度进行分析和对比，以此检验基于自然语言处理建模方式的可行性和有效性。人为判定与实际难度的相关性高于单独试题自身特征预估难度与实际难度的相关性，单独使用试题语义信息与实际难度的相关性显著高于专家预估与实际难度的相关性。对试题语义信息进行建模并预估试题难度具有较高的准确性、更接近实际难度，因此可将该方法用于题库建设中新题目的难度估计，为考试组卷的决策提供依据。

主讲人简介：

江哲涵，旧金山大学学士，加州大学洛杉矶分校硕士，堪萨斯大学博士，现任北京大学医学教育研究所副研究员、博士研究生导师，并曾于2017年-2020年在阿拉巴马大学、贝勒医学院担任Tenure-track助理教授。主要研究领域为教育测量、统计学与机器学习在教育学和心理学领域的运用，尤其关注医学教育大数据与医师资格考试分析等相关的问题。近五年在教育学、心理学、信息学等核心期刊发文30篇，其中包括以第一作者身份在《Medical Teacher》，《Behavior Research Methods》，《Multivariate Behavior Methods》，《Educational and Psychological Measurement》等顶刊发表多篇论文，并在《BMC Medical Research Methodology》等期刊担任编委。曾在博士和工作期间荣获多项奖项，包括2019-大学与研究图书协会Early Career Scholarship以及2018-图书研究协会Library Assessment Travel Award，受到包括国家自然科学基金委、国家卫生健康委、国家医学考试中心、美国教育测量协会(National Council of Measurement in Education)、EBSCO、阿拉巴马州政府、中国工程院在内的多项科研基金支持。