中文打字测验文本的量化阅卷程序(续--其跟LCS的关系及应用)

作者在 2020-08-28 13:18:18 发布以下内容
    我们先看一个“不用计算机批改的例子”:
样张:“昨天小明带了一个变形金刚到小华家做客” 打字:“昨天小明明带了变形金刚一个到小华家做客” 。请你用肉眼批改有几个“正确字”。
你肯定会说:“正确字”的标准是什么?
根据一般的“共识”,我们会给出3个原则:1:一一对应。2:不颠倒顺序。3:“最长”原则。上述题目的批改结果是:“昨天小明带了变形金刚到小华家做客”(16个字)。
    为什么不是“昨天小明带了一个到小华家做客”(14个字)呢?这也符合原则1和原则2呀?这是因为:还有原则3呢。这其实不正是样张和录入的“最长公共子序列”吗?
在一些编程语言中,都有现成的相关代码,直接代入数据不就可以了吗?我看不行,一来2个文本那么长,二来也不能求出“多字”、“漏字”、“错字”、“正确率”等数据。(限时看打一般样张比录入长得多,不该用“正确字数除以样张字数”来计算。)
正是这个“原则3”,成了批改算法的难点,也就是我上次博文中的“流程图”中,进入“红色粗线矩形”的流线。
上一篇博文的“图二”中提到的“公共字符数”,确切地讲,应该叫“最长公共子序列的长度”,就是LCS算法。(也就是2个14个字符的字符串的最长公共子序列的长度,这计算的量小得多,大部分正确的字的判断是不用进入那个“红色粗线矩形”的流线的)(完)

默认分类 | 阅读 1893 次
文章评论,共0条
游客请输入验证码
浏览91105次
文章分类