跳过正文
  1. 所有文章/

数据标注与知识工程:AI 的隐形基础设施

Aaron
作者
Aaron
I only know that I know nothing.
目录

前言
#

之前一直觉得算法模型是 AI 的核心,后来才发现数据才是真正决定效果的天花板。看过不少项目,算法团队用的是同一套开源模型,但因为数据准备的差距,最终效果天差地别。这让我开始认真审视数据这件事,从标注规范到知识图谱,越深入越觉得这里面的门道远比想象中多。这篇文章把我的理解整理下来,算是给"数据驱动 AI"这个命题一个比较完整的回答。

数据标注:远不止"打个标签"
#

简单的标注任务确实没什么门槛。判断一条评论是正面还是负面,标注人员看一眼就能决定,可能连文档都不需要。

但复杂场景就完全不同了。比如你在做一个医疗问诊系统,需要标注症状与疾病的对应关系。这不是凭直觉就能搞定的事,你需要输出一份完整的标注文档,里面至少包括这些内容:

  • 标注目标:要标注什么?为什么这么定义?
  • 标注规范:什么情况标 A,什么情况标 B,边界 case 怎么处理?
  • 审核流程:标注完怎么质检?抽检比例多少?不一致的怎么仲裁?

标注文档的质量直接决定训练数据的质量,而训练数据的质量直接决定模型的上限1。这一点怎么强调都不为过。

微调数据:要学会"看表"
#

大模型微调过程中,有一项容易被忽视但非常关键的工作:检查微调数据的 Schema。具体来说就是检查用户意图的标注是否和意图体系一致。

举个例子:意图体系里有"贷款提前还款"这个类目,但标注数据里出现了大量"想提前结清贷款"“能不能少还点"“提前还款怎么操作"被标成了不同的意图。这就是标注不一致,需要及时纠正。

另外就是数据质量评判。数据有没有异常值?有没有大量缺失?有没有重复样本?这些看似是数据工程师的活,但如果你连数据质量都判断不了,就没办法确保模型训练出来的效果能达到预期。

一句话:数据质量直接决定模型性能。 这不是口号,是铁律。

数据驱动的模型迭代
#

很多人有个误区,觉得模型上线就万事大吉了。恰恰相反,模型上线才是迭代的起点。

模型在真实环境中的表现和测试环境往往差异很大。你需要通过数据来衡量实际效果,找到问题所在,指导下一步迭代。具体来说,要把模型表现拆解成可量化的指标:

  • 用户意图识别准确率:模型有没有正确理解用户意图?
  • 转人工率:用户是不是因为模型回答不好才转人工的?转人工率有没有下降?
  • 错误意图占比:哪些意图被频繁识别错误?是有规律的还是随机的?

举个实际例子。假设你负责一个银行贷款智能客服产品,上线一周后数据看板显示"还款方式变更"意图的识别准确率只有 65%,远低于整体平均的 85%。深挖数据发现,大量用户说"我想把贷款转成等额本息”,模型没有把它识别为"还款方式变更"意图。

找到问题后怎么办?针对性的数据补充和策略调整:增加这类表述的训练样本,或者在意图识别前加一层同义词映射。

这就是数据驱动迭代。不是拍脑袋说"我觉得效果不好”,而是用数据精确告诉你哪里不好、差多少、怎么改2

还有一个实操建议:构建数据看板。 不要每次都跑 SQL 拉数据,做一个研发、产品、运营都能看的看板,让各方对齐目标。数据看板不是为了汇报好看,而是为了让所有人都基于同一组数据做决策。

数据颗粒度:AI 分析精度的决定因素
#

这是最容易被忽略的一点。

为什么很多企业落地 AI 效果很差?不是因为模型不够强,而是因为数据颗粒度不够细。

某金融机构想用大模型分析贷款审批的瓶颈。部门负责人说:“我们上 AI,让大模型告诉我们怎么提升贷款审批效率。“结果大模型给出的答案是:“建议更换风控团队负责人。”

能怪大模型吗?不能。因为喂给模型的数据只有"贷款审批平均耗时增加 15%“这种粗粒度信息。模型能分析出的结论只能是宏观层面的"风控流程有问题”。

要让模型给出有价值的分析,你需要什么粒度的数据?

  • 具体是哪个贷款产品、哪个审批环节、哪个风控节点出了问题?
  • 客户资质如何?授信额度是多少?担保方式是什么?
  • 什么时候开始出现审批积压?持续了多久?
  • 风控参数(逾期阈值、征信评分、负债率)有没有波动?

数据颗粒度越细,模型分析出来的结论就越精准。当你有了上述细粒度数据,大模型才有可能告诉你:“个人消费贷的三方审批环节在 2 月 15 日后平均耗时上升 12%,原因是该批次客户征信评分普遍偏低导致人工复核增多,建议优化自动审批规则或调整征信评分阈值。”

企业数据基础是使用 AI 的前提条件3。很多企业连数据都没沉淀好,就急着上 AI,结果自然是"垃圾进、垃圾出”。

知识图谱:让 AI 输出"靠谱"的结构化利器
#

聊到数据能力,就不能不提知识图谱。

大模型的幻觉问题
#

大模型是从互联网公开数据训练出来的。这些数据有准确的也有错误的,有新的也有过时的。这就导致大模型有时候会一本正经地胡说八道,学术上叫"幻觉”(Hallucination)4

闲聊场景下幻觉顶多是闹个笑话。但在医疗、金融等高风险场景中,幻觉是不能容忍的。不准确的答案可能导致严重的健康问题甚至生命危险。

知识图谱如何解决幻觉
#

知识图谱本质上是一个结构化的知识库。它不是让模型自由发挥,而是给模型画了一条"围栏",只能在已知的事实关系里做推理。在实际应用中,知识图谱通常和 RAG 结合使用,也就是常说的 GraphRAG5

用医疗场景理解知识图谱
#

假设有一个医疗知识图谱,包含以下关系:

  • 药品与疾病的关系
  • 药品与成分的关系
  • 成分与器官的关系
  • 药品与副作用的关系
  • 症状与疾病的关系

用户问:“高血压患者服用波罗菲安全吗?”

没有知识图谱的情况下,大模型可能根据训练数据中零散的信息给出模糊的回答,甚至编造不存在的事实。

有知识图谱的情况下,推理链是这样的:

波罗菲 → 释放化氧化酶 → 影响前列腺 → …… → 损伤肾 → 导致肾病

结合大模型的推理能力和语言生成能力,系统最终给出准确的风险提示:高血压患者服用波罗菲存在肾脏损伤风险,不建议使用。

知识图谱在这里发挥了三个关键作用:

  1. 精准关联复杂关系:从药物成分到器官影响,每一步都有据可查。
  2. 支持多跳推理:不需要人工预设"A 和 B 有关系",系统能自动从 A 推到 B,再从 B 推到 C,直到得出结论。
  3. 提升可解释性:不是告诉用户一个结论,而是展示完整的推理链路,增强信任感。

知识图谱的应用远不止医疗
#

  • 社交领域:人与人之间的关系网络,预测隐藏关系,推荐潜在人脉。
  • 公安系统:通过通话记录、位置信息等数据构建图谱,用于案件分析。
  • 教育领域:知识点之间的关系图谱,用于个性化学习路径推荐。
  • 税务领域:发票流转分析,构建知识图谱,识别逃税漏税行为。

知识图谱的六个能力维度
#

想用好知识图谱,至少要了解它的六个维度:

  1. 知识建模:定义图谱的结构,有哪些实体、哪些关系。
  2. 知识抽取:从非结构化数据中提取实体和关系。
  3. 知识融合:把来自不同源的知识合并,解决冲突。
  4. 知识可视化:让复杂的图谱关系直观可理解。
  5. 知识计算:基于图谱做推理和分析。
  6. 知识应用:把图谱能力落地到具体的产品场景中。

不需要每个维度都精通,但至少要知道每个维度在做什么、为什么重要,这样才能在项目中做出正确的决策。


  1. 业界有一句广泛流传的话:“Garbage in, garbage out.” 数据质量是机器学习效果的上限,算法只是在逼近这个上限。 ↩︎

  2. 数据驱动迭代的思路和传统互联网产品的 A/B 测试一脉相承,核心都是用数据替代主观判断。 ↩︎

  3. McKinsey 2023 年的报告指出,企业 AI 落地最大的障碍不是技术,而是数据基础设施的成熟度。 ↩︎

  4. 大模型幻觉(Hallucination)是当前 LLM 领域最活跃的研究方向之一,根治方案目前仍在探索中。 ↩︎

  5. GraphRAG 是微软在 2024 年提出的方法,将知识图谱与检索增强生成结合,显著提升了复杂问答的准确性。 ↩︎