思培考试|CELPIP

评分标准Scoring criteria

考试成绩分数是如何划分的？以及与CLB等级的对应。

CELPIP-General测试及CELPIP-General LS测试中的每个部分都会被赋予一个CELPIP等级。以下是各CELPIP等级及其对应描述的图表。由于CELPIP考试成绩已与加拿大语言基准（CLB）等级进行了校准，我们同时提供了对应的CLB等级信息供您参考：

测试等级描述	CELPIP等级	CLB等级
工作场所和社区环境中高级流利度	12	12
工作场所和社区环境中高级流利度	11	11
工作场所和社区环境中高度有效流利度	10	10
工作场所和社区环境中有效流利度	9	9
工作场所和社区环境中良好流利度	8	8
工作场所和社区环境中足够流利度	7	7
工作场所和社区环境中发展中流利度	6	6
工作场所和社区环境中获取流利度	5	5
日常生活活动中的足够流利度	4	4
有限场景中具备一定流利度	3	3
与即时需求相关的场景中能力有限	2	1、2
无法评估	1	/
无法评估	0	/
未进行测试：考生未参加此测试部分	NA	/

口语部分评分标准

类别	因素
内容/连贯性	观点数量，观点质量，观点组织结构，举例与支持细节
词汇	词语选择精确度与准确性词汇和短语的丰富程度词语和短语的恰当使用
可听性	节奏、发音与语调停顿、插入语及自我修正语法和句子结构句型多样性
任务完成度	相关性完整性语气长度

写作部分评分标准

分类	要素
内容/连贯性	主题数量主题质量主题组织结构例子与支撑细节
词汇运用	词语选择词语和短语的恰当使用词语和短语的丰富范围精确度与准确性
易读性	格式与段落划分连接词与过渡表达语法和句子结构拼写与标点符号
任务完成情况	相关性完整性语气字数限制

分数与CELPIP听力测试等级对照表（大概）

CELPIP等级	听力测试得分/38
10-12	35-38
9	33-35
8	30-33
7	27-31
6	22-28
5	17-23
4	11-18
3	7-12
M	0-7

免责声明：本示例图表展示了听力测试中的分数大致如何对应CELPIP等级。由于试题难度可能存在差异，题目之间的等值处理也会不同，因此对于某一特定等级所需的原始分数可能在不同测试之间略有变动。

分数与CELPIP阅读测试等级对照表（大概）

CELPIP等级	阅读测试得分/38
10-12	33-38
9	31-33
8	28-31
7	24-28
6	19-25
5	15-20
4	10-16
3	8-11
M	0-7

免责声明：此示例图表展示了阅读测试中的分数大致如何对应CELPIP等级。鉴于问题可能存在不同程度的难度，它们在等值处理上可能有所不同，因此对于达到某一特定等级所要求的原始分数可能会在不同测试中略微波动。

CELPIP阅读和听力部分的评分方法

CELPIP阅读和听力的所有题目均采用选择题或其他相似题型设计。所有阅读和听力部分的答案都采用二分法计分：答案要么正确，要么错误。未作答的题目被视为错误答案。所有评分工作均由计算机系统自动完成。

CELPIP口语和写作部分的评分方式

CELPIP-General测试的口语和写作部分由经过培训的专业评分员进行评分，这些评分员熟知一致的评分标准，基于标准评分量表对考生的表现进行评估。评分员会接受持续的培训和定期监控。Paragon公司利用评分员一致性统计指标来判断评分质量；针对某位考生，若一位评分员给出的评分与该考生其他评分员的评分足够接近（即达成共识），则认为这位评分员与其它评分员达成了一致意见。

思培考试CELPIP评分员的资格要求

资格要求	具体条件
英语水平	英语母语者或非英语母语者，具备CLB 11/12级别的英语语言能力
教育背景	拥有本科学历及以上学位
教学与评估经验	持有TESL Canada认可的ESL教学认证证书或拥有语言教育或语言学方向的研究生学历或拥有至少3年ESL教学或语言教育工作经验或拥有至少3年与语言学相关领域的实践经验
居住地	评分期间居住在加拿大

思培考试CELPIP评分员培训

评分员会接受持续培训，以确保所有评分员能够一致且系统地应用评分标准，最大限度减少因人为判断带来的潜在偏见。

初始评分员培训

所有评分员需参加初步培训计划，引导他们了解Paragon的评分方法。在完成培训手册、练习和评分样本后，受训人员将参与认证过程，在此期间他们会为3-6套认证样本进行评分。为了获得认证，受训人员必须连续三套以上样本在至少80%的情况下与官方分配给每个表现的分数保持一致。只有获得认证的评分员才能开始正式评分。

运营评分员培训

为了维持对相关评分原则和标准的共享视角，所有正在执行任务的评分员将接受持续的在职培训和监控，内容包括：

每周对其与其他评分员评分一致性的反馈
每周由专家评分员评定的样本表现
每两周一次的深度在线培训材料，包括一系列由专家评分员评定了分数并做出解释的样本表现
评分员研讨会详细记录，其中讨论并由专家评分员对具有挑战性的回答进行评分

评分员监控

每月对评分员的评分表现进行分析，以监测评分员团队的可靠性，并识别评分一致性不满足要求的评分员。表现不佳的评分员将就其与基准评分存在显著差距的评分样本获得个性化的反馈。如有需要，评分员可要求提供额外的样本。一旦被认定为表现不佳，评分员必须在8周内展现出改进。若表现不佳的评分员在此期限内未能展示出符合Paragon评分标准的改进，Paragon有权终止与其签订的评分合同。

思培考试CELPIP评分程序

所有测试均通过在线系统随机分配给评分员，始终保持考生匿名性。每位考生在各部分的任务表现（例如，考生在组件中对所有任务的回答）都将由多名评分员进行评估。每位CELPIP口语测试者的表演至少由三位口语评分员评分，而每位CELPIP写作测试者的写作至少由四位写作评分员评分。评分员相互独立工作，且不知晓其他评分员所给出的评分。

评分标准

针对写作和口语部分制定的评分维度已在本页面上方的“性能标准”部分列出：

口语：内容/连贯性、词汇、可听性和任务完成度
写作：内容/连贯性、词汇、易读性和任务完成度

每个维度都被细分为五个性能等级，并为每个等级在每个维度提供了性能描述符。评分员通过对考生表现中与评分标准匹配的具体证据进行识别，为每个维度分配一个等级。

基准评分

当对考生表现的评分完成后，会检查评分的一致性。如果评分存在分歧，系统会自动指派一名基准评分员对该表现进行评估。所有基准评分员均为经验丰富的评分员，他们在评分过程中表现出一贯的准确性和可靠性。基准评分员并不知道最初的评分结果。

最终分数如何确定？

口语和写作部分的分数来源于评分员所给予的各个维度的评分。这些分数随后会被转换成CELPIP等级。转换规则由参与标准设定练习的英语语言专家制定。标准制定是一个广泛的、以研究为基础的过程。语言专家与测试专业人员合作，确定语言学习者在每个性能等级（例如CLB 8）应具备的能力。然后，专家们对测试进行详细分析，确定应试者在每个CELPIP级别需要达到的水平。这一过程在每个口语和写作部分的分数与其相应的CELPIP级别之间建立了一种可靠的联系。

思培考试CELPIP评分常见问题

是否每位考生都是使用的同一套试卷？

出于安全考虑，存在多种不同的考试版本（测试形式）。即使在同一时间段参加考试，不同的考生也会被分配不同的测试形式。每个测试形式中会包含一些独有的题目，也可能包含与其它形式共享的一些题目。Paragon采取多套试卷的形式来管理考试，目的是最大程度降低考前有人接触到试题的风险，从而避免考生因此取得不公平或不应得的高分。

考试中有未得分的题目吗？

是的，新的题目会不断编写出来。在这些题目作为计分题目投入使用之前，会先进行预测试，以确保它们的质量与现有题目相当。Paragon会在每次测试中包含一些新编写的题目，这些题目看起来与计分题目无异，但它们并不用于计算你的最终得分。Paragon不会告诉考生哪些题目是不计分的，因为重要的是考生应对每一个题目尽全力作答。这样做可以确保收集到的新题目数据能用来评估其质量。只有表现良好的题目在未来才会被用作计分题目。

不同试卷难度是否相同？

尽管每份试卷包含不同的问题，但每份试卷都是遵循明确的内容和难度指导原则构建的。Paragon通过预测试和试卷创建流程确保了不同试卷的难度大致相同。然而，每次考试的题目并非完全相同，这意味着试卷间可能存在微小的难度差异。如果最终测试分数没有校正这些小差异，对考生而言将是不公平的。因此，通过分数等值化的过程，甚至消除了这种轻微的变异性，确保了考试公平性。

思培考试CELPIP中什么是分数等化？

等分是根据不同试卷难度的细微差别对最终分数进行修正的过程。例如，如果一名应试者在相对简单的试卷上答对了30道题，而另一名应试者在较难的试卷上答对了30道题，那么等分法就会纠正试卷难度上的差异。最重要的是，两种测试形式所报告的分数必须具有可比性。我们需要确保最终分数能够反映您的基本语言水平，而不是取决于您或其他人所回答问题的难度。

为什么思培考试CELPIP不出具原始分数？

任何测试的目标都是不论具体考试题目如何，都要为每位考生提供公正且准确的评估。虽然CELPIP测试在编制过程中遵循了内容和难度的相关指导原则，但仍然可能出现不同试卷之间难度稍有差异的情况。原始分数仅仅是考生答对题目的数量之和，它无法顾及这些细微的难度差异。因此，在不同形式的测试中，一个原始分数30分可能代表的意义并不相同。这就意味着不同考生的原始分数难以解读和比较。

为了弥补不同试卷之间的差异，Paragon将考生的原始分数转化为标准化分数。标准化分数对原始分数进行了统一调整，使得在不同形式的测试中，考生的成绩可以互相比较。

思培考试CELPIP分数等级是如何确定的？

在确定阅读和听力的标度分数后，将其转换为CELPIP级别。转换规则是由参与标准制定工作的英语专家制定的。标准设定是一个广泛的、以研究为基础的过程。语言专家与测试专业人员合作，确定语言学习者在每个成绩等级（如CLB 8）上需要具备的能力。然后，专家们对测试进行详细分析，确定应试者在每个CELPIP级别需要达到的水平。这一过程在每个阅读和听力标度分数与其相应的CELPIP级别之间建立了可靠的联系。

思培考试CELPIP阅读和听力分数的可靠性如何？

衡量测验可靠性的方法有很多。克朗巴赫α系数（Cronbach's alpha）就是一种很好的可靠性测量方法，它专门测量测验表的内部一致性。这一统计测量的结果范围为-1到+1，其中-1表示完全缺乏内部一致性，+1表示完全一致。0.80或更高的结果被认为是极好的。对于CELPIP阅读和听力部分，测试表的平均克朗巴赫α系数（Cronbach's alpha）值为0.88。这表明思培考试CELPIP 阅读和听力测试表具有极好的内部一致性。