平行宇宙 · 交付即王炸:我在都市开权限

第 0018 章:接口

第 0018 章:接口


数据接口终于在第三周末对接上了。

工信局的信息科给了一个 API 地址,可以调取过去五年的企业政策申报数据。

沈录看着那串字符,心里松了口气。

有数据,就有希望。

"格式是 JSON 的,还挺规范。"方维盯着屏幕,手指在键盘上飞舞,"我先写个脚本把数据拉下来。"

"多少条?"

"根据文档说明,大概有二十万条左右。"

"够了。"沈录点点头,"先拉一万条试试效果。"

方维敲了几分钟代码,运行。

屏幕上开始滚动数据。

企业名称,行业类型,注册资本,申报政策,申报时间,审批结果……

数据一条条刷过去,方维的眉头却越皱越紧。

"有问题。"

"什么问题?"

"这些数据……"方维指着屏幕,"缺失太多了。"

沈录凑过去看。

他发现,很多记录的关键字段是空的。

比如"企业行业类型"这个字段,有将近三成是空白的。

"政策标签"更惨,超过一半是"其他"或者"未分类"。

这意味着什么?

意味着这些数据几乎没法用。

AI 推荐的核心逻辑是"企业画像匹配政策标签",如果企业没有行业类型,政策没有标签,那匹配个鬼?

"怎么会这样?"方维一脸懵,"这不是他们自己的数据吗?"

沈录沉默了一会儿。

"政府数据就是这样。"他说,"很多时候录入的人不专业,能填就填,不能填就空着。反正又没人查。"

"那我们怎么办?"

"两条路。"沈录想了想,"第一,人工清洗数据,把缺失的字段补上。第二,改算法,让模型能处理缺失数据。"

"人工清洗要多久?"

"二十万条……"沈录算了一下,"按一天处理一千条算,要两百天。"

"那不可能。"

"所以只能走第二条路。"沈录站起来,走到白板前,"我们改一下模型的设计。"

他拿起马克笔,开始画框架图。

"原来的思路是精确匹配,企业有什么特征就匹配什么政策。现在改成模糊匹配,用已有的数据训练一个基础模型,让它学会'猜'。"

"猜?"

"对,猜。"沈录在白板上写下几个关键词,"比如一个企业,行业类型是空的,但注册资本是 500 万,成立时间是三年,员工人数是 50 人。根据这些信息,模型可以推断它大概率是中小型科技企业。"

方维想了想:"这样准确率能有多高?"

"不知道,得试。"沈录放下马克笔,"但这是唯一的办法。"

方维叹了口气:"行,那就试。"


接下来的一周,沈录和方维几乎住在了工作室。

改模型、调参数、跑测试、分析结果、再改、再调、再跑……

循环往复。

到第七天的时候,终于有了突破。

"准确率 67%。"方维看着测试报告,声音有点激动,"比 demo 的时候还高了。"

"不够。"沈录摇头,"至少要 75%以上,不然验收过不了。"

"那怎么办?"

"加数据。"沈录看着屏幕,"把剩下的十九万条也拉进来,扩大训练集。"

"那得跑多久?"

"我的电脑跑不动。"沈录想了想,"得租服务器。"

"租服务器?又是一笔钱。"

"没办法。"沈录调出系统界面,查了一下云服务器的价格,"一个月三千块,能接受。"

他下单了一台高配的云服务器,开始上传数据。

进度条缓慢地走着。

3%……7%……12%……

方维靠在椅子上,打了个哈欠:"我先眯一会儿,跑完叫我。"

"行。"

沈录也靠回椅背,盯着进度条发呆。

他忽然想起温羽韵的话。

"在下次审计之前,把 AI 模块的开发进度赶上来。"

下次审计是什么时候来着?

他看了眼日历。

还有三周。

三周内,要把 AI 模块从 67%的准确率提升到 75%以上,还要完成前端界面、用户测试、bug 修复……

时间很紧。

但他没有退路。

进度条还在走。

23%……31%……45%……

沈录盯着那些数字,脑子里在飞速转动。

数据问题、算法问题、人手问题、时间问题……

一个一个的坑,等着他去填。

但他不怕。

他已经填过一次了。

弘远那个项目,陈志强那个人,他都扛过来了。

这次,也一样。

进度条终于走到了 100%。

屏幕上弹出一个提示框:

"数据上传完成,开始训练模型……"

沈录看着那行字,嘴角微微上扬。

来吧。

不管是数据的坑,还是林尚群的坑,他都接着。