本文档提供有关“新测验”测验和题目分析报告及其相关计算的全面信息。该报告包含两个主要部分:测验分析和题目分析,分别涵盖以下主题:
- 测验表现总体总结:提供测验统计数据概览,使管理员和教师能够全面掌握学生的整体表现。
- 单个项目统计数据:将各个项目的统计数据作为独立问题显示。
- 单项题目与测验总分之间的相关性:有助于评估某个项目对衡量所评估的潜在结构所做的贡献程度。
许多统计数据都包含建议值,以便您了解应该关注哪些方面。然而,就项目分析而言,并没有通用的答案或数值范围来确定有效性或可接受的结果;您的机构可能会使用不同的范围来评估某些指标。
测验和题目分析报告数据排除项
测验和题目分析报告是按需生成的报告。本报告包含截至报告撰写之时收到的所有回复。但是,以下提交内容除外:不是测验和题目分析报告中包含以下内容:
- 尚未由自动评分器评估的提交内容
- 多次尝试参加测验
- 至少一半的提交内容尚未评分的问题
- 笔记:
- 剩余的问题将再次筛选,以排除包含未评分问题的提交。
- 测验的最高可能分数会降低,以与报告中包含的问题的分值相匹配。
- 教师在预览测验或学生视图中添加的提交内容
测验和项目分析报告规则
由于以下规则,报告数据的显示方式可能有所不同:
- 在某些情况下,由于输入数据不足,某些指标无法计算。此时,指标将显示“N/A”(不适用),而不是显示其值。例如,如果测验中的所有问题都是随机生成的,则无法计算克朗巴赫α系数。同样,如果无法将学生分成3组,则……判别指数无法计算。
- 百分比指标四舍五入到最接近的整数,而其他指标四舍五入到小数点后两位。
测验总结
本节定义了报告中“测验总结”部分可以找到的数据点。
高分
显示参加测验的学生中获得的最高百分比分数。
低分
显示参加测验的学生中获得的最低百分比分数。
平均分
显示参加测验的学生的平均百分比得分。
中位数得分
中位数显示的是所有参加测验的学生的分数按升序排列后,各分数百分比的中间值。与易受极端值影响的平均分不同,中位数不受异常值的影响。
平均经过时间
显示完成测验所需的平均时间。
分数分布图
显示参加测验的学生的得分百分比分布情况。
标准差
什么是标准差?
标准差衡量的是分数围绕平均值的平均绝对偏差。较低的标准差表明,平均而言,分数更接近该组数据的平均值。较高的标准差则表明,平均而言,分数与该组数据的平均值偏差较大。标准差的计量单位应与所显示的平均值相同。例如,如果平均值以百分比表示,则标准差也应以百分比表示。
标准差是如何计算的?
标准差的计算方法是:求出每次提交结果与平均值之差的平方的平均值的平方根:
其中 𝑛 是回复的数量,𝜇 是平均分,𝑥ᵢ 是第 i 个提交的百分比得分。
异常值如何影响标准差值?
异常值是指与均值显著偏离的数值。异常值会对用于计算标准差的均值产生重大影响。如果标准差较高且存在异常值,则可能意味着该标准差不能代表典型值。
克朗巴赫α系数
什么是克朗巴赫α系数?
克朗巴赫α系数是衡量内部一致性的指标,用于评估测验的信度。其取值范围为0到1,数值越高表示信度越高。
笔记:由于克朗巴赫α系数衡量的是内部一致性,随机化的题目会扭曲其数值,因此测验中所有随机化的题目都被排除在外。
它是如何计算的?
其中 𝑘 是问题数,𝜎ᵢ² 是第 i 个问题得分的方差,𝜎ₓ² 是测验的方差。
如何解读和评估克朗巴赫α系数?
数值范围为 0 到 1,数值越高表示内部一致性和信度越高,意味着各题项之间相关性强,且测量的是同一潜在结构。数值为 0 表示各题项之间完全没有相关性,彼此完全独立。知道一道题的答案并不等同于掌握正确回答测验中其他题项所需的知识。
虽然没有严格的阈值,但0.70或更高的值被认为是可接受的。如果测验考察的是复杂主题,则较低的值也可能被接受。
您可以评估校正后的项目总分相关系数识别与所测量的潜在结构相关性可能较低的条目。删除此类条目可以提高克朗巴赫α系数。
局限性
克朗巴赫α系数评估内部一致性,但不能保证有效性,也不能反映质量。
单个项目统计数据
平均得分
显示获得该物品的学生的平均得分。
平均得分
中位数显示的是所有完成该题的学生得分按升序排列后的中间值。与易受极端值影响的平均分不同,中位数不受异常值的影响。
物品难度
什么是物品难度?
项目难度(也称为 p 值)是指回答该项目正确的参与者比例。取值范围从 0(没有人回答正确)到 1(所有人都回答正确)。
笔记: 计算题目难度时,采用二分法问题,不考虑部分得分或分数。
它是如何计算的?
题目难度计算方法为:答对题目的参与者人数除以参与者总数。对于随机题目,参与者总数仅包括在测验中遇到该题目的学生。
其中 𝐶 是回答正确的学生人数,𝑇 是学生总数。
我该如何解读和评估题目难度值?
题目难度值接近 1 表示大多数学生答对了题目,这可能表明该题目对学生来说比较简单,或者无法有效地挑战学生。如果题目用于测试学生的掌握程度,这可能是预期结果。难度值接近 0 则表示只有少数学生答对了题目,这可能表明该题目对学生来说比较有挑战性。
虽然没有严格的阈值,但通常来说,题目难度值低于 0.30 的题目被认为难度过高,高于 0.85 的题目被认为难度过低。如果题目难度过高或过低,请考虑调整题目或修改题目描述,使其更符合预期难度。
与任何比例或百分比一样,样本量会极大地影响题目难度指标。当样本量较小时,少量提交就可能显著改变该值;而当样本量较大时,则需要更多相同分数/值的提交才能改变题目的整体难度。
笔记:为了更全面地了解一件物品,可以考虑评估以下方面:判别指数和校正后的项目总分相关系数。
相关性计算
以下计算有助于更好地理解各个项目与测验总分以及测验中其他项目之间的关系或关联性。
校正后的项目总分相关系数
什么是校正后的项目总分相关系数?
校正后的项目总分相关系数是指将项目得分与其所在测验的总分进行相关计算得到的皮尔逊相关系数。校正的依据是,为了消除偏差,在计算总分时,需要将相关项目移除,从而在指标中只计算一次,而不是两次。现代测量实践者(例如心理测量学家和评估专家)倾向于更频繁地使用此指标,而不是区分度指数,因为它涵盖了整个分数范围,而不仅仅关注分数范围内的最高值和最低值。
本质上,这项指标有助于判断那些答对题目(或得分高于其他学生)的学生是否往往在测验的其他题目中也取得较高的分数。反之,它也能显示那些在某道题上表现不佳的学生是否往往在测验的其他题目中也表现不佳。
它是如何计算的?
校正后的项目总分相关系数的计算方法是:将项目得分与测试得分(减去该项目得分;校正后的总分)的协方差除以项目标准差与校正后总分标准差的乘积:
在哪里 cov(项目,校正后的总分)是项目与校正后总分之间的协方差:
cov(项目,校正后的总分)= 𝑛∑(项目)(修正后的总分)- (∑ 物品)(∑修正后的总分)
我该如何解释和评估校正后的项目总分相关系数值?
与其他相关系数一样,该值介于 -1 到 +1 之间。理想情况下,题目应力求获得大于或等于 +0.20 的值。接近 0 的值表示题目表现与测试其他部分的表现之间几乎没有相关性。负值则表明存在异常情况(例如,某道题得分高的学生在其他题目的得分往往较低,反之亦然)。从某种意义上说,该指标被认为是一种更全面、更灵敏的区分度衡量方法。
歧视指数
什么是歧视指数?
区分度指数侧重于衡量题目区分得分最高和最低个体的能力。其取值范围为-1到+1。数值越高,区分度越好;数值越低(或为负值),区分度越差。
它是如何计算的?
为了计算区分度指数,首先计算参加测验的学生的百分位排名,然后将学生分为三组:低于或等于第27百分位的学生、高于或等于第63百分位的学生以及介于两者之间的所有学生。分别计算高低两组学生的题目难度(p值)。区分度指数即为高低两组题目难度之差。
我该如何解读和评估歧视指数值?
与校正后的项目总分相关系数类似,较高的区分度指数表明,在测试中表现良好的个体往往在该特定项目上也表现良好。较低的区分度指数值则意味着该项目区分度较差。负值表示存在反向/非预期关系。区分度指数的阈值范围各不相同,但一般遵循以下指导原则:
区分度指数 | 解释 |
|---|
0.40及以上 | 辨别能力很强 |
0.30 - 0.39 | 良好的歧视 |
0.20 - 0.29 | 公平歧视 |
0.10 - 0.19 | 不歧视 |
低于 0.10 | 差评 |
消极的 | 反向关系 |
CSV 文件和 JSON 对象
如何解读和评估用于新测验、测验和项目分析的 CSV 文件?
新测验的测验和项目分析报告的 CSV 文件包含与 Canvas 界面中显示的信息相同的信息。
笔记:
- 与 Canvas 界面不同,CSV 文件中的指标不会进行四舍五入。
- 如果某个字段无法计算(例如:克朗巴赫α系数),则会在单元格中添加“N/A”字符串。
- 如果报告中没有某个字段(例如,分类问题类型的“无答案”学生人数),则会在单元格中添加“不支持”字符串。
CSV文件名包含测验标题和“测验及题目分析报告”字符串。
前九列用于测验分析,只填写一行。
各列标题如下:
报告已生成:报告生成日期和时间
测验标题:测验标题
QuizHighScore:高分
QuizLowScore:低分
测验平均分:平均分
QuizMedianScore:中位数得分
测验标准差:标准差
QuizCronbach's Alpha:克朗巴赫α系数
测验平均耗时:平均经过时间
从第十列到最后一列,第一行始终为空。然后,每一行代表测验中的一个项目。
各列标题如下:
商品编号:测验题目的 ID
标题: 物品标题
物品难度:物品难度
可能得分:最高得分
平均得分:平均得分
中位数收益积分:平均得分
歧视指数:歧视指数
校正后项目总相关性:校正后的项目总相关系数
物品类型:问题类型
正确的: 正确回答该问题的学生人数
错误:答错的学生人数
无回应:未回答该问题的学生人数
回答频率:答案频率汇总表
我该如何解读“答案频率”列?
由于数据复杂,答案频率汇总表以 JSON(JavaScript 对象表示法)对象的形式表示。了解更多关于 JSON 的信息。
以下JSON对象表示一个分类问题:
{ "answers": [ { "answer": "Sunglasses", "categories": [ { "category": "_distractors_", "count": 4, "correct": true }, { "category": "Essentials", "count": 1, "correct": false }, { "category": "Add-ons", "count": 1, "correct": false } ] }, { "answer": "Light source", "categories": [ { "category": "_distractors_", "count": 1, "correct": false }, { "category": "Essentials", "count": 2, "correct": false }, { "category": "Add-ons", "count": 3, "correct": true } ] }, { "answer": "Regulator", "categories": [ { "category": "_distractors_", "count": 0, "correct": false }, { "category": "Essentials", "count": 5, "correct": true }, { "category": "Add-ons", "count": 1, "correct": false } ] }, { "answer": "Mask", "categories": [ { "category": "_distractors_", "count": 0, "correct": false }, { "category": "Essentials", "count": 5, "correct": true }, { "category": "Add-ons", "count": 1, "correct": false } ] } ]}
“答案”字段是一个对象列表。
每个答案都具有相同的字段:“答案”(答案的文本)和“类别”(对象列表)。
类别对象包含三个字段:
- “类别”字段是您创建的类别的名称。
- “计数”字段显示有多少学生向该类别添加了答案
- “正确”字段用于指示答案是否被设置为该类别中的正确答案。
笔记:您可以在每个答案对象中看到“category: “_distractors_””。这是为了区分带有前缀和后缀符号的附加干扰项,以避免在问题中使用“Distractors”作为类别名称时造成混淆。