平行宇宙 · 交付即王炸:我在都市开权限
第 36 章 断供
第 36 章 断供
回到公司,沈录立刻召集核心成员开会。
"情况就是这样。"方维说完了知语科技的事,脸色很难看。"他们的核心工程师王海涛,三天前突然被青云挖走。没有王海涛,他们根本没办法按时完成知识图谱。"
"林尚群的手笔。"李雪薇冷笑,"挖走知语的人,就等于断了我们的供应链。"
"他怎么知道我们用的是知语?"陈明问。
"赵磊介绍的。"沈录看向赵磊,"你跟谁说过这件事?"
赵磊脸色发白:"沈总,我只跟团队内部说过,没跟外面的人提……"
"不是赵磊的问题。"方维打断他,"知语和青云有过合作,林尚群肯定有渠道打听到我们的供应商信息。"
沈录点点头。他相信赵磊的话——如果赵磊真的是林尚群的内线,就不会推荐知语,因为那样太容易暴露。
更可能的情况是,林尚群通过其他渠道得知了这个信息,然后精准打击。
"知语那边完全没办法了吗?"沈录问。
"他们说可以延期交付,但要多给一周时间。"方维说,"但我们只剩 17 天,一周的延期,根本扛不住。"
17 天。
一周的延期等于直接宣判死刑。
"还有别的供应商吗?"沈录问李雪薇。
"这个时间点,找不到了。"李雪薇摇头,"做政务知识图谱的公司本来就不多,能在两周内交付的更少。而且……"
"而且什么?"
"而且林尚群既然能挖走知语的人,就能挖走其他公司的人。"李雪薇说,"他不需要把所有供应商都搞垮,只需要让我们找不到能及时交付的合作方。"
会议室陷入沉默。
沈录闭上眼睛,快速分析局势。
知识图谱是智能问答系统的核心组件之一。没有它,检索增强生成的效果会大打折扣——准确率可能会从 87%跌到 80%以下,根本不可能达到 92%的目标。
但找新供应商也不现实,时间不够。
那就只剩下一个选择——自己做。
"李雪薇,"沈录睁开眼睛,"如果不用外部的知识图谱,我们能不能自己构建一个轻量版?"
李雪薇愣了一下:"轻量版?"
"对。"沈录说,"你之前说过,80%的问题集中在 20%的主题上。那我们就只构建这 20%主题的知识图谱,够用就行。"
李雪薇陷入沉思。
"理论上可行。"她慢慢说道,"但需要大量的人力。知识图谱构建是个体力活,要把政务领域的实体关系一条条梳理出来。正常情况下,一个人一天最多整理 100 条三元组。我们需要至少 5000 条才能覆盖核心主题……"
"5000 条,50 人天。"方维算了算,"我们现在六个人,每人干 8 天多……"
"算上标注员,有 11 个人。"沈录说,"四到五天就够。"
"但标注员不懂知识图谱的构建方法。"李雪薇说。
"那就教他们。"沈录说,"从现在开始,知识图谱和模型优化两条线同时推进。李雪薇带一组人做模型,方维带一组人做知识图谱。"
"我?"方维愣住了,"老沈,我不懂知识图谱……"
"那就边学边做。"沈录站起身,"从现在开始,每个人都要超越自己的舒适区。我们没有退路。"
会议室里安静了几秒。
然后方维站起来:"行。我学。"
陈明和赵磊也站起来:"我们也学。"
李雪薇看着这群人,眼里闪过一丝感动。
"我来写构建指南。"她说,"今晚之前给你们。"
当天晚上,李雪薇写出了一份五页的"政务知识图谱构建指南"。
内容包括:什么是三元组、怎么从政务文档中抽取实体关系、怎么定义实体类型和关系类型、怎么保证数据质量。
沈录看完指南,觉得基本能懂。但要让标注员也能懂,还需要进一步简化。
"我来做个培训 PPT。"张涛主动说,"我以前做过培训工作。"
"好,越简单越好。"沈录说。
第二天上午,五个标注员和三个开发在会议室接受培训。
张涛的 PPT 做得很直观,用政务场景的实际例子来解释抽象概念。比如"办理身份证-需要-户口本"就是一个三元组,"办理身份证"是头实体,"需要"是关系,"户口本"是尾实体。
培训结束后,每个人都领到了一份任务清单——从政务服务网站的 FAQ 文档中抽取三元组。
"每人每天 100 条,干五天。"沈录说,"质量有问题的返工。"
知识图谱构建紧张进行的同时,模型优化也没有停。
李雪薇带着林小雨和一个标注员,专门负责错误案例分析和规则补丁编写。
"这个案例怎么错的?"李雪薇指着屏幕上的一条日志。
用户输入:"社保卡丢了咋整?" 模型输出:"社保卡密码重置" 正确答案:"社保卡补办"
"模型把'丢了'理解成'忘了'。"林小雨分析道,"因为'咋整'这种口语化表达,在训练数据里出现的频率低。"
"那就加一条规则。"李雪薇说,"检测到'丢了'和'咋整'同时出现时,优先识别为'补办'类需求。"
林小雨记录下来,然后去写代码。
这样的对话,每天要进行几十次。
每一条错误案例背后,都可能隐藏着一类共性问题。李雪薇的工作就是找到这些共性,然后用最高效的方式解决。
三天后,规则补丁累积了 127 条,模型准确率从 87%提升到 89%。
"还差 3 个点。"李雪薇说,"但低垂的果实已经摘完了,剩下的每一个点都会越来越难。"
倒计时第 12 天。
知识图谱构建进入尾声。
"一共 4823 条三元组。"方维报告,"覆盖了政务服务的 21 个核心领域。"
"质量怎么样?"沈录问。
"抽查了 500 条,错误率大概 8%。"方维说,"比外包的质量差一些,但勉强能用。"
8%的错误率,意味着大约 400 条错误数据。这些错误会影响检索精度,进而影响问答准确率。
但时间不等人,只能先用着。
"把知识图谱导入系统,跑一遍测试。"沈录说。
一小时后,测试结果出来了。
准确率:90.2%。
比纯模型提升了 1.2 个百分点。
"离 92%还差 1.8 个点。"李雪薇说,"还有 12 天,理论上可以达到。"
"理论上?"沈录问。
"问题是,剩下的 1.8 个点都是硬骨头。"李雪薇指着错误日志,"这些案例要么是极端冷门的问法,要么是语义歧义很严重的表达。常规方法很难解决。"
"有什么非常规方法?"
"有一个。"李雪薇犹豫了一下,"但需要冒风险。"
"说说看。"
"人工智能标注。"李雪薇说,"用大模型来辅助标注数据,然后用这些数据去微调我们的模型。"
"有什么风险?"
"质量风险。"李雪薇说,"大模型标注的数据可能有错误,如果错误数据被用来训练,反而会降低准确率。"
沈录想了想:"错误率大概是多少?"
"根据业内的经验,大概 5-10%。"李雪薇说,"但如果我们人工抽查一部分,可以把错误率控制在 3%以内。"
3%的错误率,换取大量的标注数据。
这是一个 trade-off。
"试试看。"沈录做出决定。
接下来的三天,团队进入了最后的冲刺阶段。
李雪薇用 GPT-4 来标注冷门问法的训练数据,同时安排两个标注员做人工抽查。方维带队做知识图谱的错误修正。陈明和赵磊完成了接口联调,开始做压力测试。
每天晚上,沈录都会看一遍当天的进度报告。
倒计时第 10 天,准确率 90.8%。 倒计时第 9 天,准确率 91.1%。 倒计时第 8 天,准确率 91.4%。
曲线在缓慢爬升,但距离 92%还有 0.6 个百分点。
"最后这 0.6 个点,可能要卡很久。"李雪薇说,"我们已经用尽了所有的优化手段。"
沈录盯着屏幕上的数字,沉默不语。
91.4%。
距离目标只有一步之遥,但这一步可能比之前所有的步骤加起来都要难。
"还有别的方法吗?"他问。
"有一个。"李雪薇说,"但不是技术方法。"
"什么方法?"
"换测试数据集。"李雪薇看着沈录的眼睛,"我们一直用的是甲方提供的测试数据,里面可能有一些被刻意设置的难题。如果能换一套更公平的测试数据……"
"你是说,测试数据本身有问题?"
"我不确定。"李雪薇说,"但我觉得有必要查一查。"
沈录想起了那个名字——周迎光。
如果他能影响验收标准,也能影响测试数据。
"我来查。"沈录说。
他打开系统面板:
【数据分析请求】
分析目标:智能问答模块测试数据集 分析内容:异常检测、分布偏差、人为设置痕迹 成本:风险债+3%
是否执行?[是/否]
沈录选择了"是"。
风险债从 50%升到 53%。
系统面板显示:
【数据分析完成】
检测结果:
- 测试数据集共 12000 条
- 其中约 8%(960 条)的问法显著偏离正常分布
- 这些异常问法集中在"社保""医保""不动产"三个领域
- 异常问法的共同特征:口语化程度极高,包含大量方言表达
结论:测试数据集存在人为调整痕迹,异常问法比例高于正常水平。
建议:在正式验收时,要求审计方披露数据生成方法,并申请数据复核。
沈录看着分析结果,眼神变得冰冷。
8%的异常问法,集中在三个领域。
这不是偶然,而是有人故意埋雷。
"找到了。"沈录把分析结果给李雪薇看,"测试数据被动过手脚。"
李雪薇看完,脸色也变了:"8%的异常比例……难怪最后这几个点那么难提升。"
"接下来怎么办?"方维问。
"两条线并行。"沈录说,"第一,继续优化模型,尽可能提高准确率。第二,准备证据,在正式验收时要求数据复核。"
"证据够吗?"
"够不够,验收的时候就知道了。"沈录的眼神坚定,"但不管怎样,我们不能放弃。"
【当前状态更新】
- 结算点:153(不变)
- 风险债:53%(+3%,数据分析)
- 下一里程碑:智能问答模块验收(剩余 8 天)
- 模型准确率:91.4%(目标 92%)
- 发现:测试数据集存在人为调整痕迹
- 威胁等级:极高