单选题
8.请计算以下样本的字准确率是多少?标注:我最喜欢的运动是排球识别:吾最喜爱的运动是拍球哦
A
0.6
B
0.4
C
0.7
D
0.3
答案解析
正确答案:A
解析:
题目要求计算字准确率,即识别结果与标准标注在字级别上的匹配程度。
一、分析题干:
- 标注(标准答案):我最喜欢的运动是排球
共10个字:我 / 最 / 喜 / 欢 / 的 / 运 / 动 / 是 / 排 / 球
- 识别结果(模型输出):吾最喜爱的运动是拍球哦
共11个字:吾 / 最 / 喜 / 欢 / 的 / 运 / 动 / 是 / 拍 / 球 / 哦
二、逐字对比:
| 序号 | 标注字 | 识别字 | 是否正确 |
|------|--------|--------|----------|
| 1 | 我 | 吾 | 否 |
| 2 | 最 | 最 | 是 |
| 3 | 喜 | 喜 | 是 |
| 4 | 欢 | 欢 | 是 |
| 5 | 的 | 的 | 是 |
| 6 | 运 | 运 | 是 |
| 7 | 动 | 动 | 是 |
| 8 | 是 | 是 | 是 |
| 9 | 排 | 拍 | 否 |
| 10 | 球 | 球 | 是 |
| — | — | 哦 | 多出字,不匹配 |
说明:
- 第1字“我” vs “吾”:不同字,错误。
- 第9字“排” vs “拍”:音近形近但不同字,错误。
- 识别结果多出一个“哦”字,属于多余字符,在字准确率计算中通常视为错误或不计入正确匹配。
三、计算字准确率:
字准确率 = 正确匹配的字数 / 标注文本的总字数
- 正确匹配的字:位置2至8(最、喜、欢、的、运、动、是)共7个,加上第10字“球”,共8个字中匹配了8个?
再核对:
实际匹配情况:
- “最” 对 “最” → 正确
- “喜” 对 “喜” → 正确
- “欢” 对 “欢” → 正确
- “的” 对 “的” → 正确
- “运” 对 “运” → 正确
- “动” 对 “动” → 正确
- “是” 对 “是” → 正确
- “球” 对 “球” → 正确
共8个正确。
但注意:
- 第1字:“我” ≠ “吾” → 错误
- 第9字:“排” ≠ “拍” → 错误
因此,10个标注字中,有8个识别正确。
但是识别结果有11个字,比标注多一个“哦”。在严格字准确率(Character Accuracy)计算中,通常以标注为基准,逐位比对,超出部分视为错误,且错位不额外惩罚。
更常见的做法是:按最小长度对齐?不对。标准做法是——**逐位置比较,直到较短者结束,但所有输出字符都参与评估**。然而在自然语言处理中,尤其是OCR或语音识别任务中,常用的是 **编辑距离** 或 **字符级准确率**,其中一种常见定义是:
字符准确率 = (总字符数 - 替换、插入、删除错误数) / 标注字符数
但本题显然是简单匹配方式。
另一种简化方式:直接逐位置对比,相同位置字符相同则计为正确,不同则错误;若识别结果长度不一致,则多出部分对应的位置视为错误。
由于标注有10字,识别有11字,我们以标注长度为准进行比对前10个字:
识别前10字:吾 / 最 / 喜 / 欢 / 的 / 运 / 动 / 是 / 拍 / 球
标注: 我 / 最 / 喜 / 欢 / 的 / 运 / 动 / 是 / 排 / 球
逐字对比前10字:
1. 吾 vs 我 → 错
2. 最 vs 最 → 对
3. 喜 vs 喜 → 对
4. 欢 vs 欢 → 对
5. 的 vs 的 → 对
6. 运 vs 运 → 对
7. 动 vs 动 → 对
8. 是 vs 是 → 对
9. 拍 vs 排 → 错
10. 球 vs 球 → 对
正确字数:位置2,3,4,5,6,7,8,10 → 共8个正确?
但这样是8/10=0.8,不在选项中。
矛盾。
再看识别结果:“吾最喜爱的运动是拍球哦”——共11字。
标注:“我最喜欢的运动是排球”——10字。
可能对齐方式不同。
重新拆分:
标注:我 / 最 / 喜 / 欢 / 的 / 运 / 动 / 是 / 排 / 球 (10字)
识别:吾 / 最 / 喜 / 欢 / 的 / 运 / 动 / 是 / 拍 / 球 / 哦 (11字)
如果我们只比较前10个识别字与10个标注字:
- 吾 vs 我 → 错
- 最 vs 最 → 对
- 喜 vs 喜 → 对
- 欢 vs 欢 → 对
- 的 vs 的 → 对
- 运 vs 运 → 对
- 动 vs 动 → 对
- 是 vs 是 → 对
- 拍 vs 排 → 错
- 球 vs 球 → 对
→ 正确数:8个 → 准确率 8/10 = 0.8 → 不在选项中(选项为0.6, 0.4, 0.7, 0.3)
但答案给的是 A:0.6
说明理解有误。
换一种思路:是否“字准确率”在此题中定义为 **识别结果中正确字符数 / 识别结果总字符数**?
即以识别输出为分母。
识别结果共11字,其中哪些是正确的?
- 吾:应为“我” → 错
- 最:对
- 喜:对
- 欢:对
- 的:对
- 运:对
- 动:对
- 是:对
- 拍:应为“排” → 错
- 球:对
- 哦:多出字,无对应 → 错
所以正确字:位置2到8(最、喜、欢、的、运、动、是)共7个,加上“球”共8个?但“球”在位置10,标注也有“球”,位置对应吗?
问题在于:识别中的“拍球”对应标注的“排球”,语义接近但字不同。
但“哦”是多余的。
如果认为只有完全相同的字且在合理语境下才算对,那么:
正确字符:最、喜、欢、的、运、动、是、球 → 8个
但“球”出现在识别第10位,标注第10位也是“球”,可视为正确。
但“拍”不是“排”,错。
“吾”不是“我”,错。
“哦”多余,错。
所以11个识别字中,8个正确?8/11≈0.727,接近0.7,选项C。
但答案是A:0.6
仍不符。
再思考:或许“字准确
相关知识点:
样本字准确率计算法
题目纠错
人工智能训练师题库
相关题目
单选题
4843.感知机自身的缺陷导致了第一次人工神经网络研究的衰退。
单选题
4842.虹膜识别技术是基于眼睛中的虹膜进行身份识别,应用于安防设备和有高度需求的场所。
单选题
4841.目前,学术界对人工智能已经形成了统一标准的概念。
单选题
4840.机器学习的学习方式是通过获得经验或历史数据不断改进提高做某项任务的表现。
单选题
4839.对抗神经网络可以通过两个神经网络的博弈,达到更好的学习效果。
单选题
4838.某问题可能具有的状态的总数,称之为问题的规模。
单选题
4837.如果一个路径的第一个节点为问题的目的状态,最后一个节点为问题的初始状态,则该路径称为解路径。
单选题
4836.规则表达的可以是与待求解的问题有关的经验方面的知识,也可以是对求解问题有帮助的策略方面的知识。
单选题
4835.目前大多数的专家系统都采用产生式系统的结构来建造。
单选题
4834.人工智能是研究如何制造出人造的智能机器或智能系统,来模拟人类智能活动的能力,以延伸人们智能的科学。
