中文打字测验文本的量化阅卷程序(续--其跟LCS的关系及应用） - nhjsjjs的博客

作者在 2020-08-28 13:18:18 发布以下内容

我们先看一个“不用计算机批改的例子”：
样张：“昨天小明带了一个变形金刚到小华家做客” 打字：“昨天小明明带了变形金刚一个到小华家做客” 。请你用肉眼批改有几个“正确字”。
你肯定会说：“正确字”的标准是什么？
根据一般的“共识”，我们会给出3个原则：1：一一对应。2：不颠倒顺序。3：“最长”原则。上述题目的批改结果是：“昨天小明带了变形金刚到小华家做客”(16个字)。
为什么不是“昨天小明带了一个到小华家做客”(14个字)呢？这也符合原则1和原则2呀？这是因为：还有原则3呢。这其实不正是样张和录入的“最长公共子序列”吗？
在一些编程语言中，都有现成的相关代码，直接代入数据不就可以了吗？我看不行，一来2个文本那么长，二来也不能求出“多字”、“漏字”、“错字”、“正确率”等数据。（限时看打一般样张比录入长得多，不该用“正确字数除以样张字数”来计算。）
正是这个“原则3”，成了批改算法的难点,也就是我上次博文中的“流程图”中，进入“红色粗线矩形”的流线。
上一篇博文的“图二”中提到的“公共字符数”，确切地讲，应该叫“最长公共子序列的长度”，就是LCS算法。（也就是2个14个字符的字符串的最长公共子序列的长度，这计算的量小得多，大部分正确的字的判断是不用进入那个“红色粗线矩形”的流线的）（完）