平行宇宙 · 交付即王炸：我在都市开权限

第 36 章断供

回到公司，沈录立刻召集核心成员开会。

"情况就是这样。"方维说完了知语科技的事，脸色很难看。"他们的核心工程师王海涛，三天前突然被青云挖走。没有王海涛，他们根本没办法按时完成知识图谱。"

"林尚群的手笔。"李雪薇冷笑，"挖走知语的人，就等于断了我们的供应链。"

"他怎么知道我们用的是知语？"陈明问。

"赵磊介绍的。"沈录看向赵磊，"你跟谁说过这件事？"

赵磊脸色发白："沈总，我只跟团队内部说过，没跟外面的人提……"

"不是赵磊的问题。"方维打断他，"知语和青云有过合作，林尚群肯定有渠道打听到我们的供应商信息。"

沈录点点头。他相信赵磊的话——如果赵磊真的是林尚群的内线，就不会推荐知语，因为那样太容易暴露。

更可能的情况是，林尚群通过其他渠道得知了这个信息，然后精准打击。

"知语那边完全没办法了吗？"沈录问。

"他们说可以延期交付，但要多给一周时间。"方维说，"但我们只剩 17 天，一周的延期，根本扛不住。"

17 天。

一周的延期等于直接宣判死刑。

"还有别的供应商吗？"沈录问李雪薇。

"这个时间点，找不到了。"李雪薇摇头，"做政务知识图谱的公司本来就不多，能在两周内交付的更少。而且……"

"而且什么？"

"而且林尚群既然能挖走知语的人，就能挖走其他公司的人。"李雪薇说，"他不需要把所有供应商都搞垮，只需要让我们找不到能及时交付的合作方。"

会议室陷入沉默。

沈录闭上眼睛，快速分析局势。

知识图谱是智能问答系统的核心组件之一。没有它，检索增强生成的效果会大打折扣——准确率可能会从 87%跌到 80%以下，根本不可能达到 92%的目标。

但找新供应商也不现实，时间不够。

那就只剩下一个选择——自己做。

"李雪薇，"沈录睁开眼睛，"如果不用外部的知识图谱，我们能不能自己构建一个轻量版？"

李雪薇愣了一下："轻量版？"

"对。"沈录说，"你之前说过，80%的问题集中在 20%的主题上。那我们就只构建这 20%主题的知识图谱，够用就行。"

李雪薇陷入沉思。

"理论上可行。"她慢慢说道，"但需要大量的人力。知识图谱构建是个体力活，要把政务领域的实体关系一条条梳理出来。正常情况下，一个人一天最多整理 100 条三元组。我们需要至少 5000 条才能覆盖核心主题……"

"5000 条，50 人天。"方维算了算，"我们现在六个人，每人干 8 天多……"

"算上标注员，有 11 个人。"沈录说，"四到五天就够。"

"但标注员不懂知识图谱的构建方法。"李雪薇说。

"那就教他们。"沈录说，"从现在开始，知识图谱和模型优化两条线同时推进。李雪薇带一组人做模型，方维带一组人做知识图谱。"

"我？"方维愣住了，"老沈，我不懂知识图谱……"

"那就边学边做。"沈录站起身，"从现在开始，每个人都要超越自己的舒适区。我们没有退路。"

会议室里安静了几秒。

然后方维站起来："行。我学。"

陈明和赵磊也站起来："我们也学。"

李雪薇看着这群人，眼里闪过一丝感动。

"我来写构建指南。"她说，"今晚之前给你们。"

当天晚上，李雪薇写出了一份五页的"政务知识图谱构建指南"。

内容包括：什么是三元组、怎么从政务文档中抽取实体关系、怎么定义实体类型和关系类型、怎么保证数据质量。

沈录看完指南，觉得基本能懂。但要让标注员也能懂，还需要进一步简化。

"我来做个培训 PPT。"张涛主动说，"我以前做过培训工作。"

"好，越简单越好。"沈录说。

第二天上午，五个标注员和三个开发在会议室接受培训。

张涛的 PPT 做得很直观，用政务场景的实际例子来解释抽象概念。比如"办理身份证-需要-户口本"就是一个三元组，"办理身份证"是头实体，"需要"是关系，"户口本"是尾实体。

培训结束后，每个人都领到了一份任务清单——从政务服务网站的 FAQ 文档中抽取三元组。

"每人每天 100 条，干五天。"沈录说，"质量有问题的返工。"

知识图谱构建紧张进行的同时，模型优化也没有停。

李雪薇带着林小雨和一个标注员，专门负责错误案例分析和规则补丁编写。

"这个案例怎么错的？"李雪薇指着屏幕上的一条日志。

用户输入："社保卡丢了咋整？" 模型输出："社保卡密码重置" 正确答案："社保卡补办"

"模型把'丢了'理解成'忘了'。"林小雨分析道，"因为'咋整'这种口语化表达，在训练数据里出现的频率低。"

"那就加一条规则。"李雪薇说，"检测到'丢了'和'咋整'同时出现时，优先识别为'补办'类需求。"

林小雨记录下来，然后去写代码。

这样的对话，每天要进行几十次。

每一条错误案例背后，都可能隐藏着一类共性问题。李雪薇的工作就是找到这些共性，然后用最高效的方式解决。

三天后，规则补丁累积了 127 条，模型准确率从 87%提升到 89%。

"还差 3 个点。"李雪薇说，"但低垂的果实已经摘完了，剩下的每一个点都会越来越难。"

倒计时第 12 天。

知识图谱构建进入尾声。

"一共 4823 条三元组。"方维报告，"覆盖了政务服务的 21 个核心领域。"

"质量怎么样？"沈录问。

"抽查了 500 条，错误率大概 8%。"方维说，"比外包的质量差一些，但勉强能用。"

8%的错误率，意味着大约 400 条错误数据。这些错误会影响检索精度，进而影响问答准确率。

但时间不等人，只能先用着。

"把知识图谱导入系统，跑一遍测试。"沈录说。

一小时后，测试结果出来了。

准确率：90.2%。

比纯模型提升了 1.2 个百分点。

"离 92%还差 1.8 个点。"李雪薇说，"还有 12 天，理论上可以达到。"

"理论上？"沈录问。

"问题是，剩下的 1.8 个点都是硬骨头。"李雪薇指着错误日志，"这些案例要么是极端冷门的问法，要么是语义歧义很严重的表达。常规方法很难解决。"

"有什么非常规方法？"

"有一个。"李雪薇犹豫了一下，"但需要冒风险。"

"说说看。"

"人工智能标注。"李雪薇说，"用大模型来辅助标注数据，然后用这些数据去微调我们的模型。"

"有什么风险？"

"质量风险。"李雪薇说，"大模型标注的数据可能有错误，如果错误数据被用来训练，反而会降低准确率。"

沈录想了想："错误率大概是多少？"

"根据业内的经验，大概 5-10%。"李雪薇说，"但如果我们人工抽查一部分，可以把错误率控制在 3%以内。"

3%的错误率，换取大量的标注数据。

这是一个 trade-off。

"试试看。"沈录做出决定。

接下来的三天，团队进入了最后的冲刺阶段。

李雪薇用 GPT-4 来标注冷门问法的训练数据，同时安排两个标注员做人工抽查。方维带队做知识图谱的错误修正。陈明和赵磊完成了接口联调，开始做压力测试。

每天晚上，沈录都会看一遍当天的进度报告。

倒计时第 10 天，准确率 90.8%。倒计时第 9 天，准确率 91.1%。倒计时第 8 天，准确率 91.4%。

曲线在缓慢爬升，但距离 92%还有 0.6 个百分点。

"最后这 0.6 个点，可能要卡很久。"李雪薇说，"我们已经用尽了所有的优化手段。"

沈录盯着屏幕上的数字，沉默不语。

91.4%。

距离目标只有一步之遥，但这一步可能比之前所有的步骤加起来都要难。

"还有别的方法吗？"他问。

"有一个。"李雪薇说，"但不是技术方法。"

"什么方法？"

"换测试数据集。"李雪薇看着沈录的眼睛，"我们一直用的是甲方提供的测试数据，里面可能有一些被刻意设置的难题。如果能换一套更公平的测试数据……"

"你是说，测试数据本身有问题？"

"我不确定。"李雪薇说，"但我觉得有必要查一查。"

沈录想起了那个名字——周迎光。

如果他能影响验收标准，也能影响测试数据。

"我来查。"沈录说。

他打开系统面板：

【数据分析请求】

分析目标：智能问答模块测试数据集分析内容：异常检测、分布偏差、人为设置痕迹成本：风险债+3%

是否执行？[是/否]

沈录选择了"是"。

风险债从 50%升到 53%。

系统面板显示：

【数据分析完成】

检测结果：

测试数据集共 12000 条
其中约 8%（960 条）的问法显著偏离正常分布
这些异常问法集中在"社保""医保""不动产"三个领域
异常问法的共同特征：口语化程度极高，包含大量方言表达

结论：测试数据集存在人为调整痕迹，异常问法比例高于正常水平。

建议：在正式验收时，要求审计方披露数据生成方法，并申请数据复核。

沈录看着分析结果，眼神变得冰冷。

8%的异常问法，集中在三个领域。

这不是偶然，而是有人故意埋雷。

"找到了。"沈录把分析结果给李雪薇看，"测试数据被动过手脚。"

李雪薇看完，脸色也变了："8%的异常比例……难怪最后这几个点那么难提升。"

"接下来怎么办？"方维问。

"两条线并行。"沈录说，"第一，继续优化模型，尽可能提高准确率。第二，准备证据，在正式验收时要求数据复核。"

"证据够吗？"

"够不够，验收的时候就知道了。"沈录的眼神坚定，"但不管怎样，我们不能放弃。"

【当前状态更新】

结算点：153（不变）
风险债：53%（+3%，数据分析）
下一里程碑：智能问答模块验收（剩余 8 天）
模型准确率：91.4%（目标 92%）
发现：测试数据集存在人为调整痕迹
威胁等级：极高

第 36 章 断供

第 36 章断供