本文来自微信公众号:APPSO (ID:appsolution),作者:发现明日产品的
今天,大部分地区的高考日程就结束了!祝贺各位考生!无论结果如何,这都是阶段性的胜利✌。
考生考完了不等于「考试」考完了——各个AI大模型也跟着「考」了三天。
比如,让AI写作文是固定操作了,随着模型一年更比一年强,结果也一年比一年没有悬念——AI当然可以写的很好啦。
可以直接丢题目让AI发挥——像这篇,直接豆包写今年北京卷作文题《第二次呼吸》,成文结构清晰、语言流畅,并且引经据典。
或者像两天前我们做过的「整活向」,以鲁迅大师的文风写遍各个卷子。
像模像样,「横眉冷对」的感觉都够味。
实际上,抱着「AI写得对,但不打动人」这个观点,已经有点过时了。你别说,AI真的能写相当不错的作文——只是这就更糟糕了。
它既能套公式,又能煽情,一篇作文的「高级」与「打动人」,都能在提示词的排列组合中实现。那人类写作,到底还剩下什么?
真正让人不安的,可能不是AI能不能写好,而是我们越来越难说清楚「写得好」,到底意味着什么。
于是我换了个做法:让AI改作文。如果它真有判断力,能指出哪里精彩、哪里有感染力,那就……真的有点汗流浃背了朋友。
AI整挺好,然后呢?
高考作文有自成一套的评分框架,大体分为,「内容、表达和发展」这几个维度,沿用了很多年。
原本我以为,依照AI写作文的风格,哪怕拿不了一等,二等肯定是没问题的。结果有高考批卷经验的老师给其它公号留言说,一等问题也不大。
有一说一,如果是几十秒,这跟AI的用时也没什么区别了。再加上评卷是有统一标准的,说不定AI还更能揪住细节呢?——毕竟,AI连吃饭喝水都不用了。
下面是我们用GPT,批改其它AI写的作文:主打一个中门对狙。
59分,虽没有满分但跟满分也没差别了。
有一说一,AI改作文不能算没有道理,但分数高的着实离谱……这还是在中间已经「矫正」过评分过高的情况下。
能一瞬间从多个维度完成对一篇作文的特征提取,AI的确在做「分类工作」,但这个评分依据真的靠谱吗?
就在高考前夕,北京大学中文系的漆永祥老师,发表了《AI技术背景下高考作文试题的命制、写作和评价》的研究,当中便提到了这一点。而且,他也用了DeepSeek来批改高考作文。
让DeepSeek按照高考作文评分标准,对它自己生成的作文《答案之海与问题之舟:在信息洪流中守护思想的芦苇》进行打分,DeepSeek给这篇作文打了58分(有点王婆卖瓜)。每一项具体给分依据如下表。
即便是提供了高考作文的批改标准,DeepSeek也没有很好的遵照指令——对比前面官方的「高考作文评分量表」,DeepSeek将内容维度分值提高至25分,将特征维度分值减少到了15分。
这些细节倒是没关系,在prompting层面慢慢磨就好。棘手的其实是,它并不能完全理解评价依据。「内容、表达和发展」这几个评卷的重点维度,它都不能够很好的掌握。
在表面上符合、给出「乖巧文章」,并不意味着真正能达到要求:高考要求写作文,是在考察学生的理解能力和写作能力。
比如流传甚广的高考作文「八要与八病」:要逻辑清晰、言之有物、准确真诚、事例契合、灵活运用、风格和谐、文从字顺、自然得体。
忌逻辑混乱、空洞无物、无病呻吟、堆砌事例、生搬硬套、风格杂糅、语句不通、语言造作。
嘶……这样一看,AI的表现可以说是,既好又坏。
审美,未来真正重要的事
「好作文」归根到底是一个审美问题,而审美难以统一。这一点在教师队伍内部也存在:
「很多语文教师在教授多年语文后依然存在这样的困惑:什么是好的作文?好的作文仁者见仁、智者见智,很难达成共识。」漆永祥在论文中写到。
比如,2001年高考全国卷要求以「诚信」为话题作文,江苏考生蒋昕捷剑走偏锋,采用古白话文体,以三国故事为基础,写出了一篇留名高考作文史的奇文《赤兔之死》。
随着时间变化,对于好作文的评判也不断的变化。由学生自己的个人经历出发,有一个具体的故事,在曾经是可以拿到高分作文的做法之一。
2007年江苏一考生的作文《怀想天空》在打分时引起争议:初评被三位老师打了37分的及格分,但在复查阶段,江苏省高考语文阅卷组组长何永康教授却给出54分的高分,并特意写了夹批和按语——「一篇质朴之作与一种作文导向」,借此鼓励质朴的文风。
当年的一些经典范文,的确给人以深刻的印象。它们未必是完美的,但却是有记忆点的。
恰恰——AI能写,也能改,但它无法判断「哪一段文字,是值得被记住的」。
AI没有对风格的偏爱,没有共鸣的能力,没有对人类经验的体验所带来的情感。它的输出永远是平的、规整的、符合训练数据平均值的。
如果你问它建议,给出的往往是「更清晰一点」「更有逻辑性」「换个更高级的词」——而这些都是可以训练的机械改写。
比如让GPT对上面这篇质朴的「麦田作文」打分,评价就不高(48分)。它认为这篇文章「个别语句表达略显随意,情节安排略显平直,结尾略显突兀」。
接着让GPT按照它理解的「一类作文」重新对这篇文章进行修改润色,得到了一篇60分的「满分作文」:
从应试评分的角度来看,修改过后的文章的确逻辑更圆滑、用词更漂亮,但与此同时,也变得「泯然众文矣」。
一篇文章之所以动人、令人记住,不是因为它规范、准确,而是因为它展现出独特的对事物的感知,以及一种对话与交流的气质。
写作从来不只是结构和逻辑,更是一种表达欲、判断力,甚至是一种对美的追求。那些真挚的情感和文字的灵韵,往往就藏在词句不完美的裂隙和留白当中。
AI可以判断这些吗?可以判断「美」吗?
起码现阶段而言,AI无法培养判断力。它没有主观好恶、没有共鸣,不会评估独特性或情感价值。它只能模仿和复现,而且复现的还是平均值。
显然,语文课不能也不会变成「大家一起学写prompting」。写作教育恰恰应该做的,就是帮助学生建立对风格、气质、美感的判断力。
具体而言,是教会学生感受语言的细节、风格的差异、遣词造句的细节。让人能够准确地表达出,「这篇文章很打动我」背后的原因。
可能是它说出了「我也想说、却还没说出口」的东西,可能是因为它有一个独特的表达路径,一种令人动容的说话方式。即便行文并不完美,有一些转折、含糊、甚至选词上的小问题,但这些恰恰构成了它的气质。
这些就是审美判断力。
如果说写作教育还有什么无法被取代的价值,那一定是这个判断力本身——判断何为好,何为动人,何为「有情感在其中」。
即便在未来,写作确实由AI来完成了,审美判断依然不可或缺——不知道什么是好的文字,把prompt写成了小作文,也跑不出好的结果。
这或许是未来的目标,也是AI时代真正重要的事:让孩子们成为拥有自己语感的人。
相关推荐
练练手,写一篇今年的高考作文
人工智能的“高考”时刻,AI大模型打先锋
交卷,互联网人昨天都写了多少高考作文
高考作文AIGC来写,谁的分数最高?
ChatGPT写不出《罗刹海市》
高考作文大PK,讯飞星火对阵GPT4-o,结果大跌眼镜!
这个世界变得更精彩,但好像也更无聊了
他,一个22岁大学生,写了个AI反ChatGPT
为什么我不想看到度晓晓写作文
知乎上的历史学家:AI写不出烟火气
网址: AI 高考作文拿高分了,但我们好像写不出人味儿了 http://m.xishuta.com/newsview137135.html