平行宇宙 · 交付即王炸:我在都市开权限
第 38 章 验收
第 38 章 验收
周五,上午九点。
政务局六楼会议室。
沈录提前十分钟到达,会议室里已经坐了不少人。
甲方这边,赵敏亲自坐镇,刘科长和技术处三人在旁。审计机构这边,中正信评派了周迎光和温羽韵,中信资产评估派了两位技术专家。恒信科技的陆远鸿和周正阳也来了,作为总包方列席。
沈录的团队坐在另一侧——方维、李雪薇、陈明、赵磊、林小雨,全员到场。
"人齐了。"赵敏看了看时间,"开始吧。"
刘科长站起来主持会议:"今天是智慧政务平台二期 AI 模块第一阶段的验收会。验收内容是智能问答模块,验收标准是准确率不低于 92%。测试数据由甲方和两家审计机构共同提供,现场实时运行。"
"先宣布测试数据的构成。"周迎光开口,"总测试量 12000 条。甲方提供 6000 条,中正信评提供 3000 条,中信资产评估提供 3000 条。"
沈录心里默默计算——中正信评的 3000 条里,可能有相当比例是"异常问法"。这是周迎光的底牌。
"测试流程是这样的。"温羽韵接过话头,"我们会把 12000 条测试数据随机打散,然后分批送入系统。每批 1000 条,共 12 批。每批测试完成后,统计准确率。最终准确率取 12 批的加权平均值。"
"有问题吗?"赵敏看向沈录。
"有一个问题。"沈录站起来,"关于测试数据的分布。"
"什么分布?"
"我希望在正式测试之前,能看到测试数据的问题类型分布。"沈录说,"确保测试数据覆盖了政务服务的主要领域,而不是集中在某些特定领域。"
周迎光皱眉:"沈总,这是什么意思?你质疑我们的测试数据?"
"不是质疑,是确认。"沈录平静地说,"验收的目的是评估系统在真实场景下的表现。如果测试数据的分布与真实用户的问法分布差异太大,验收结果就没有参考价值。"
会议室安静了几秒。
中信资产评估的专家开口了:"沈总说得有道理。作为第二审计方,我们支持披露数据分布。"
周迎光的脸色变了一下,但没有反对。
"好,把数据分布调出来。"赵敏说。
温羽韵打开电脑,投影出三方提供的数据分布图。
甲方的 6000 条数据,问题类型分布均匀,覆盖了户籍、社保、医保、住房、交通等 21 个领域。
中信资产评估的 3000 条数据,分布也很均匀。
但中正信评的 3000 条数据……
沈录看到图表的瞬间,眼睛眯了起来。
社保领域占 35%,医保领域占 30%,不动产领域占 25%。三个领域加起来占了 90%。
剩下的 18 个领域只占 10%。
"周总,"沈录指着图表,"能解释一下为什么中正信评的数据集中在这三个领域吗?"
周迎光的脸色变得很难看。
"这三个领域是政务服务的高频领域。"他说,"我们重点测试是合理的。"
"高频领域确实重要,但也不至于占到 90%。"沈录说,"根据甲方的历史数据,这三个领域的咨询量占比是 45%,不是 90%。"
他拿出一份文件:"这是甲方过去一年的咨询量统计。社保 15%,医保 12%,不动产 18%,加起来 45%。周总的数据分布,是真实分布的两倍。"
会议室里开始有窃窃私语。
周迎光的额头冒出了汗珠。
"沈总,你这是质疑我们的专业性?"
"我不质疑您的专业性。"沈录平静地说,"我只是想知道,您的数据分布为什么和真实分布差异这么大。"
"而且,"他继续说道,"我注意到您重点测试的这三个领域,恰好是我们系统准确率相对较低的领域。社保 89%,医保 88%,不动产 87%——都低于整体平均值 91.7%。"
"您是故意选择我们的弱项来测试,还是巧合?"
会议室彻底安静了。
周迎光的脸色铁青,但说不出话来。
赵敏看了看周迎光,又看了看沈录,最终开口:
"关于数据分布的问题,两家审计机构先讨论一下。如果分布确实不合理,需要调整。"
"赵局,"周迎光急了,"这是审计机构的专业判断——"
"周总。"赵敏打断他,语气变冷,"我要的是公平的验收,不是对任何一方的偏袒。如果您的数据分布确实有问题,就调整。这不是商量。"
周迎光张了张嘴,最终没有再说什么。
十五分钟后,两家审计机构达成一致。
中正信评的 3000 条数据将重新抽样,按照真实用户的问法分布来配置。调整后,社保占 15%,医保占 12%,不动产占 18%,其余领域按比例分配。
"调整后的数据已经准备好了。"温羽韵说,"可以开始正式测试。"
沈录点点头。
他知道,这一仗只是赢了第一回合。真正的考验,还在后面。
测试开始。
第一批 1000 条数据送入系统。
会议室里鸦雀无声,所有人都盯着屏幕上的进度条。
三分钟后,结果出来了。
"第一批准确率:92.3%。"温羽韵宣布。
沈录的心跳漏了一拍。
92.3%。超过了 92%的目标。
但这只是第一批。还有 11 批要测。
第二批:91.8%。 第三批:92.1%。 第四批:91.5%。
数字在 92%上下波动,每一次都让人心惊肉跳。
第五批:90.9%。
沈录的心沉了一下。90.9%,低于目标。
但他没有表现出来。
第六批:92.4%。 第七批:91.7%。 第八批:92.0%。 第九批:91.3%。 第十批:92.2%。 第十一批:91.9%。 第十二批:92.5%。
最后一批数据跑完,会议室里响起了细微的议论声。
温羽韵在计算器上敲了几下,然后抬起头:
"12 批测试的加权平均准确率是……"
她停顿了一下。
"91.88%。"
91.88%。
距离 92%的目标,差了 0.12 个百分点。
沈录闭上眼睛。
差了。
这么近,却还是差了。
"验收结果:未通过。"周迎光的声音响起,带着一丝难以掩饰的得意,"准确率 91.88%,低于 92%的标准。"
会议室里陷入沉默。
"等一下。"
一个声音打破了沉默。
是中信资产评估的专家。
"我有一个问题。"他站起来,"按照验收标准,准确率需要'不低于 92%'。91.88%四舍五入是 92%,还是 91%?"
"当然是 91%。"周迎光说,"91.88 不满 92,就是不达标。"
"但标准里没有规定精确到小数点后几位。"专家说,"如果按照四舍五入的惯例,91.88%应该算作 92%。"
"这种说法太牵强了。"周迎光冷笑,"验收标准就是验收标准,不存在四舍五入。"
"那请问,如果准确率是 91.999%,也算不达标吗?"
周迎光愣了一下:"这种情况不可能出现——"
"不可能出现不代表不需要考虑。"专家说,"标准制定的时候没有明确精度要求,这是一个漏洞。现在出现了边界情况,我们需要讨论如何处理。"
赵敏敲了敲桌子:"讨论一下。"
两家审计机构开始争论。
中正信评坚持 91.88%不达标。 中信资产评估认为应该按照惯例四舍五入。
双方僵持不下。
沈录一直沉默。
他在等待一个机会。
"各位。"他终于开口了,"关于准确率的争议,我有一个建议。"
所有人看向他。
"我们可以做一个补充测试。"沈录说,"用甲方过去一周的真实用户咨询数据,作为测试集。这些数据是真实的、无法提前准备的,最能反映系统的实际表现。"
"如果补充测试的准确率超过 92%,就算达标。如果低于 92%,我认赌服输。"
会议室里一片哗然。
用真实用户数据来测试?
这是一个大胆的提议。真实数据没有经过任何筛选,可能包含各种奇怪的问法,对系统是巨大的考验。
但同时,真实数据也没有被"人为调整"过,是最公平的测试。
"这个提议……"赵敏沉思了一下,"我觉得可以。刘科长,过去一周的咨询数据有多少?"
"大约 3500 条。"刘科长说。
"那就用这 3500 条做补充测试。"赵敏拍板,"两家审计机构同意吗?"
中信资产评估的专家点头:"同意。"
周迎光犹豫了一下,最终也点了头。
他知道,如果自己反对,就等于承认之前的测试数据有问题。
"好,开始补充测试。"
3500 条真实用户数据被导入系统。
这一次,没有人知道结果会是什么。
测试开始。
进度条缓缓前进,每一秒都像是一年。
沈录看着屏幕,脑海中回想起过去一个月的种种——李雪薇的加入、知语科技的断供、团队的夜战、林尚群的阴谋……
所有的努力,都将在这一刻得到答案。
五分钟后,测试完成。
温羽韵看着屏幕上的数字,表情有一瞬间的变化。
"补充测试准确率……"
她深吸一口气。
"92.4%。"
会议室爆发出一阵惊叹。
92.4%。
超过了 92%的目标。
沈录缓缓呼出一口气,感觉全身的力量都被抽空了。
赢了。
真的赢了。
"综合两轮测试结果,"赵敏站起来宣布,"智能问答模块验收通过。"
周迎光的脸色铁青,但没有说话。
温羽韵看向沈录,眼神里有一种说不清的光芒。
陆远鸿和周正阳也松了一口气——作为总包方,他们的项目也因此得救。
方维、李雪薇、陈明、赵磊、林小雨——团队所有人都露出了笑容。
一个月的煎熬,终于有了回报。
验收会结束后,沈录走出会议室。
视野角落,系统面板浮现:
【里程碑完成确认】
项目:智慧政务平台二期(AI 模块) 里程碑:智能问答模块验收 状态:已完成 评级:A(超额完成对赌目标)
结算点奖励:+25 风险债偿还:-10% 对赌奖金到账:+150 万
当前结算点:178 当前风险债:43%
【系统提示】 恭喜完成高难度里程碑。信誉评级提升,后续资源调用成本降低 5%。
结算点从 153 涨到 178,风险债从 53%降到 43%,150 万奖金到账。
一场恶战,一次丰收。
但沈录知道,这只是开始。
智能问答模块只是 AI 模块的第一个里程碑。后面还有表单预填、材料审核、智能派单、舆情预警——四个模块等着他。
林尚群的反击还会继续。 周迎光的阴谋还没有结束。 风险债虽然降了,但 43%仍在黄色警告区。
战斗,远没有结束。
但至少,今天,他赢了。
【当前状态更新】
- 结算点:178(+25)
- 风险债:43%(-10%)
- 第一里程碑:智能问答模块验收 - 通过(A 级)
- 到账资金:首款 178 万 + 对赌奖金 150 万 = 328 万
- 下一里程碑:表单预填模块开发
- 威胁等级:高