在线教育平台有个老问题:作业批改跟不上。
一个有 5 万付费学员的平台,每天可能收到几万份作业。语文作文要看内容和逻辑,英语作文要看语法和表达,编程作业要看代码能不能跑。纯靠人工批改?老师不够。纯靠传统规则引擎?只能改选择题,碰到主观题就抓瞎。
大模型能做主观题批改,这个方向行业里讨论了两年了。但一直没大规模推开,核心阻碍就是成本。用旗舰模型批改一份 500 字的作文,成本大概在 $0.01-0.03。看起来不多?日均 5 万份作业就是 $500-1500/天。教育行业毛利本就不高,这笔钱很多平台出不起。
Flash-Lite 把这个成本打到了什么水平?一份 500 字作文的批改成本大概 $0.0005——比旗舰模型便宜 20-60 倍。5 万份作业,日成本 $25。
25 美金一天搞定 5 万份作业的 AI 批改。这就从"好是好但用不起"变成了"不用白不用"。
实测:不同类型作业的批改效果
我们在三个场景下测试了 Flash-Lite 的批改能力。
英语作文批改
测试内容:200 篇中学生英语作文,长度 150-400 词。要求模型指出语法错误、用词不当、给出修改建议和总评。
结果:
语法错误识别准确率:92%(漏掉的 8% 主要是高级语法和地道表达的问题)
修改建议质量:大部分建议可用,偶尔出现"过度修改"——把学生原本没问题的表达改成了另一种说法
总评相关性:88%,能针对作文内容给出具体评价,不是套话
和人工批改做对比:在语法纠错层面,Flash-Lite 的准确率和一般的英语老师相当。在写作指导深度上有差距——人类老师会根据学生的水平给分层建议,Flash-Lite 的建议比较泛化。
语文作文批改
测试内容:150 篇初中语文作文,600-1000 字。要求模型评价内容立意、结构、语言表达,指出问题并给分。
结果比英语作文更复杂一些。Flash-Lite 在"挑毛病"上不错——错别字、病句、逻辑不通的地方基本都能发现。但在"评价立意"上偏表面——它能说出"立意不够深刻",但不太能像经验丰富的语文老师那样说"你可以从另一个角度切入"。
评分方面,和人工评分的一致率大概在 85%(±5 分以内算一致)。15% 偏差主要出现在"仁者见仁"的中间分段——70 分还是 78 分,模型和人的判断经常不一样。
编程作业批改
测试内容:100 个 Python 编程作业,涉及基础语法、函数、简单算法。要求模型判断代码正确性、指出 bug、给出改进建议。
结果:
代码正确性判断准确率:91%
Bug 定位准确率:87%
改进建议质量:整体不错,但偶尔建议过于复杂(对初学者来说不适合的优化建议)
这个场景下 Flash-Lite 的速度优势特别明显。一份编程作业的批改 1-2 秒就出来了,学生提交之后几乎实时就能看到反馈。传统的自动评测(跑测试用例)虽然也快,但只能告诉你"对了还是错了",不能告诉你"哪里错了、为什么错、怎么改"。
成本对比
拿一个日均 3 万份作业的在线教育平台来算(混合英语、语文、编程)。
每份作业平均 800 token 输入(作业内容 + 批改指令),400 token 输出(批改结果)。
方案 | 单份成本 | 日成本(3万份) | 月成本 |
|---|---|---|---|
GPT-4.1 | ~$0.02 | $600 | $18,000 |
Claude Sonnet | ~$0.015 | $450 | $13,500 |
Flash-Lite | ~$0.0008 | $24 | $720 |
人工批改 | ~$0.30 | $9,000 | $270,000 |
Flash-Lite 的月成本只有旗舰模型的 4-5%。和人工批改比更是天壤之别。
即使你觉得 Flash-Lite 的批改质量只有人工的 80%,但考虑到成本差了 375 倍,"AI 初批 + 人工抽检"的组合方案的经济性是压倒性的。
"AI 批改 + 人工抽检"的实操流程
不建议完全用 AI 替代人工批改。更现实的方案是:
Step 1:Flash-Lite 全量初批
所有作业先过一遍 Flash-Lite。输出结构化的批改结果:错误列表、修改建议、总评、建议得分。
Step 2:自动分级
根据 Flash-Lite 的批改结果做分级:
高置信度(模型对自己的评分很确定、没有发现争议点):直接发给学生。这部分通常占 60-70%。
中置信度(模型给了评价但不确定某些部分):标记出不确定的地方,推到老师面前做快速审核。老师只需要看标记的部分,不用从头批改。这部分占 20-30%。
低置信度(模型表示题目太复杂或者无法判断):走人工完整批改。这部分控制在 10% 以内。
Step 3:老师做抽检和精批
老师的角色从"全量批改"变成"抽检 + 重点精批"。时间从每天 8 小时批改,变成 2-3 小时做抽检和高价值反馈。
这个流程的好处是:学生拿到反馈的速度大幅提升(从隔天变成当天甚至实时),老师的工作从重复性劳动变成高价值的教学指导,成本降到可接受的水平。
教育场景的特殊注意事项
反馈的教育性比正确性更重要。 批改作业不只是"挑错",更重要的是"引导学习"。Flash-Lite 的批改结果有时候太直接——直接给出正确答案而不是引导学生思考。在 prompt 里需要明确要求"不要直接给答案,用提问的方式引导学生发现自己的问题"。
适配不同年龄段。 给小学生和高中生的反馈语气应该不同。小学生需要鼓励为主、简单明了;高中生可以更直接、更有深度。在 prompt 里标注学生的年级和学科,Flash-Lite 能做出一定的适配。
防作弊考量。 如果学生知道作业是 AI 批改的,有人会尝试"骗"AI——比如用 AI 生成作业再让 AI 批改,形成闭环。教育平台需要有配套的原创性检测机制。
家长的接受度。 "AI 给我孩子批改作业"这件事,有些家长会有顾虑。建议在产品层面展示为"AI 辅助教学 + 老师监督审核",不要强调"AI 替代老师"。
接入方案
教育平台通常已经有一套技术栈——学习管理系统、作业提交系统、通知系统。新增 AI 批改能力不需要重构,只需要在作业提交环节加一个 API 调用。
如果平台同时用多个 AI 功能(Flash-Lite 批改作业、旗舰模型生成教案、翻译模型做双语支持),通过 poloapi.top 统一接入能省去分别对接各家 API 的麻烦。一套认证、一份账单,运维简单。
25 美金/天的 AI 批改成本,对任何有规模的在线教育平台来说,几乎等于免费。这不是一个"要不要用"的问题,而是"多快能用上"的问题。
共同学习,写下你的评论
评论加载中...
作者其他优质文章