平行宇宙 · 交付即王炸:我在都市开权限

第 36 章 断供

第 36 章 断供

回到公司,沈录立刻召集核心成员开会。

"情况就是这样。"方维说完了知语科技的事,脸色很难看。"他们的核心工程师王海涛,三天前突然被青云挖走。没有王海涛,他们根本没办法按时完成知识图谱。"

"林尚群的手笔。"李雪薇冷笑,"挖走知语的人,就等于断了我们的供应链。"

"他怎么知道我们用的是知语?"陈明问。

"赵磊介绍的。"沈录看向赵磊,"你跟谁说过这件事?"

赵磊脸色发白:"沈总,我只跟团队内部说过,没跟外面的人提……"

"不是赵磊的问题。"方维打断他,"知语和青云有过合作,林尚群肯定有渠道打听到我们的供应商信息。"

沈录点点头。他相信赵磊的话——如果赵磊真的是林尚群的内线,就不会推荐知语,因为那样太容易暴露。

更可能的情况是,林尚群通过其他渠道得知了这个信息,然后精准打击。

"知语那边完全没办法了吗?"沈录问。

"他们说可以延期交付,但要多给一周时间。"方维说,"但我们只剩 17 天,一周的延期,根本扛不住。"

17 天。

一周的延期等于直接宣判死刑。

"还有别的供应商吗?"沈录问李雪薇。

"这个时间点,找不到了。"李雪薇摇头,"做政务知识图谱的公司本来就不多,能在两周内交付的更少。而且……"

"而且什么?"

"而且林尚群既然能挖走知语的人,就能挖走其他公司的人。"李雪薇说,"他不需要把所有供应商都搞垮,只需要让我们找不到能及时交付的合作方。"

会议室陷入沉默。

沈录闭上眼睛,快速分析局势。

知识图谱是智能问答系统的核心组件之一。没有它,检索增强生成的效果会大打折扣——准确率可能会从 87%跌到 80%以下,根本不可能达到 92%的目标。

但找新供应商也不现实,时间不够。

那就只剩下一个选择——自己做。

"李雪薇,"沈录睁开眼睛,"如果不用外部的知识图谱,我们能不能自己构建一个轻量版?"

李雪薇愣了一下:"轻量版?"

"对。"沈录说,"你之前说过,80%的问题集中在 20%的主题上。那我们就只构建这 20%主题的知识图谱,够用就行。"

李雪薇陷入沉思。

"理论上可行。"她慢慢说道,"但需要大量的人力。知识图谱构建是个体力活,要把政务领域的实体关系一条条梳理出来。正常情况下,一个人一天最多整理 100 条三元组。我们需要至少 5000 条才能覆盖核心主题……"

"5000 条,50 人天。"方维算了算,"我们现在六个人,每人干 8 天多……"

"算上标注员,有 11 个人。"沈录说,"四到五天就够。"

"但标注员不懂知识图谱的构建方法。"李雪薇说。

"那就教他们。"沈录说,"从现在开始,知识图谱和模型优化两条线同时推进。李雪薇带一组人做模型,方维带一组人做知识图谱。"

"我?"方维愣住了,"老沈,我不懂知识图谱……"

"那就边学边做。"沈录站起身,"从现在开始,每个人都要超越自己的舒适区。我们没有退路。"

会议室里安静了几秒。

然后方维站起来:"行。我学。"

陈明和赵磊也站起来:"我们也学。"

李雪薇看着这群人,眼里闪过一丝感动。

"我来写构建指南。"她说,"今晚之前给你们。"


当天晚上,李雪薇写出了一份五页的"政务知识图谱构建指南"。

内容包括:什么是三元组、怎么从政务文档中抽取实体关系、怎么定义实体类型和关系类型、怎么保证数据质量。

沈录看完指南,觉得基本能懂。但要让标注员也能懂,还需要进一步简化。

"我来做个培训 PPT。"张涛主动说,"我以前做过培训工作。"

"好,越简单越好。"沈录说。

第二天上午,五个标注员和三个开发在会议室接受培训。

张涛的 PPT 做得很直观,用政务场景的实际例子来解释抽象概念。比如"办理身份证-需要-户口本"就是一个三元组,"办理身份证"是头实体,"需要"是关系,"户口本"是尾实体。

培训结束后,每个人都领到了一份任务清单——从政务服务网站的 FAQ 文档中抽取三元组。

"每人每天 100 条,干五天。"沈录说,"质量有问题的返工。"


知识图谱构建紧张进行的同时,模型优化也没有停。

李雪薇带着林小雨和一个标注员,专门负责错误案例分析和规则补丁编写。

"这个案例怎么错的?"李雪薇指着屏幕上的一条日志。

用户输入:"社保卡丢了咋整?" 模型输出:"社保卡密码重置" 正确答案:"社保卡补办"

"模型把'丢了'理解成'忘了'。"林小雨分析道,"因为'咋整'这种口语化表达,在训练数据里出现的频率低。"

"那就加一条规则。"李雪薇说,"检测到'丢了'和'咋整'同时出现时,优先识别为'补办'类需求。"

林小雨记录下来,然后去写代码。

这样的对话,每天要进行几十次。

每一条错误案例背后,都可能隐藏着一类共性问题。李雪薇的工作就是找到这些共性,然后用最高效的方式解决。

三天后,规则补丁累积了 127 条,模型准确率从 87%提升到 89%。

"还差 3 个点。"李雪薇说,"但低垂的果实已经摘完了,剩下的每一个点都会越来越难。"


倒计时第 12 天。

知识图谱构建进入尾声。

"一共 4823 条三元组。"方维报告,"覆盖了政务服务的 21 个核心领域。"

"质量怎么样?"沈录问。

"抽查了 500 条,错误率大概 8%。"方维说,"比外包的质量差一些,但勉强能用。"

8%的错误率,意味着大约 400 条错误数据。这些错误会影响检索精度,进而影响问答准确率。

但时间不等人,只能先用着。

"把知识图谱导入系统,跑一遍测试。"沈录说。

一小时后,测试结果出来了。

准确率:90.2%。

比纯模型提升了 1.2 个百分点。

"离 92%还差 1.8 个点。"李雪薇说,"还有 12 天,理论上可以达到。"

"理论上?"沈录问。

"问题是,剩下的 1.8 个点都是硬骨头。"李雪薇指着错误日志,"这些案例要么是极端冷门的问法,要么是语义歧义很严重的表达。常规方法很难解决。"

"有什么非常规方法?"

"有一个。"李雪薇犹豫了一下,"但需要冒风险。"

"说说看。"

"人工智能标注。"李雪薇说,"用大模型来辅助标注数据,然后用这些数据去微调我们的模型。"

"有什么风险?"

"质量风险。"李雪薇说,"大模型标注的数据可能有错误,如果错误数据被用来训练,反而会降低准确率。"

沈录想了想:"错误率大概是多少?"

"根据业内的经验,大概 5-10%。"李雪薇说,"但如果我们人工抽查一部分,可以把错误率控制在 3%以内。"

3%的错误率,换取大量的标注数据。

这是一个 trade-off。

"试试看。"沈录做出决定。


接下来的三天,团队进入了最后的冲刺阶段。

李雪薇用 GPT-4 来标注冷门问法的训练数据,同时安排两个标注员做人工抽查。方维带队做知识图谱的错误修正。陈明和赵磊完成了接口联调,开始做压力测试。

每天晚上,沈录都会看一遍当天的进度报告。

倒计时第 10 天,准确率 90.8%。 倒计时第 9 天,准确率 91.1%。 倒计时第 8 天,准确率 91.4%。

曲线在缓慢爬升,但距离 92%还有 0.6 个百分点。

"最后这 0.6 个点,可能要卡很久。"李雪薇说,"我们已经用尽了所有的优化手段。"

沈录盯着屏幕上的数字,沉默不语。

91.4%。

距离目标只有一步之遥,但这一步可能比之前所有的步骤加起来都要难。

"还有别的方法吗?"他问。

"有一个。"李雪薇说,"但不是技术方法。"

"什么方法?"

"换测试数据集。"李雪薇看着沈录的眼睛,"我们一直用的是甲方提供的测试数据,里面可能有一些被刻意设置的难题。如果能换一套更公平的测试数据……"

"你是说,测试数据本身有问题?"

"我不确定。"李雪薇说,"但我觉得有必要查一查。"

沈录想起了那个名字——周迎光。

如果他能影响验收标准,也能影响测试数据。

"我来查。"沈录说。

他打开系统面板:


【数据分析请求】

分析目标:智能问答模块测试数据集 分析内容:异常检测、分布偏差、人为设置痕迹 成本:风险债+3%

是否执行?[是/否]


沈录选择了"是"。

风险债从 50%升到 53%。

系统面板显示:


【数据分析完成】

检测结果:

  1. 测试数据集共 12000 条
  2. 其中约 8%(960 条)的问法显著偏离正常分布
  3. 这些异常问法集中在"社保""医保""不动产"三个领域
  4. 异常问法的共同特征:口语化程度极高,包含大量方言表达

结论:测试数据集存在人为调整痕迹,异常问法比例高于正常水平。

建议:在正式验收时,要求审计方披露数据生成方法,并申请数据复核。


沈录看着分析结果,眼神变得冰冷。

8%的异常问法,集中在三个领域。

这不是偶然,而是有人故意埋雷。

"找到了。"沈录把分析结果给李雪薇看,"测试数据被动过手脚。"

李雪薇看完,脸色也变了:"8%的异常比例……难怪最后这几个点那么难提升。"

"接下来怎么办?"方维问。

"两条线并行。"沈录说,"第一,继续优化模型,尽可能提高准确率。第二,准备证据,在正式验收时要求数据复核。"

"证据够吗?"

"够不够,验收的时候就知道了。"沈录的眼神坚定,"但不管怎样,我们不能放弃。"


【当前状态更新】

  • 结算点:153(不变)
  • 风险债:53%(+3%,数据分析)
  • 下一里程碑:智能问答模块验收(剩余 8 天)
  • 模型准确率:91.4%(目标 92%)
  • 发现:测试数据集存在人为调整痕迹
  • 威胁等级:极高