全球消息！AI契约论⑦：有毒数据威胁大模型数据池，人工智能训练如何防范新型“特洛伊木马”

南方财经全媒体吴立洋 21世纪经济报道郑雪王俊上海，北京报道

编者按：

在2023年过去的几个月里，各大公司抢滩大模型、GPT商用化探索、算力基础设施看涨……如同15世纪开启的大航海时代，人类交往、贸易、财富有了爆炸性增长，空间革命席卷全球。变革同时，也带来了秩序的挑战，数据泄露、个人隐私风险、著作权侵权、虚假信息......此外，AI带来的后人类主义危机已然摆在桌面，人们该以何种姿态迎接人机混杂带来的迷思？

(资料图片)

此刻，寻求AI治理的共识、重塑新秩序成了各国共同面对的课题。南财合规科技研究院将推出AI契约论系列报道，从中外监管模式、主体责任分配、语料库数据合规、AI伦理、产业发展等维度，进行剖析，以期为AI治理方案提供一些思路，保障负责任的创新。

随着AI产业的快速发展，被用于训练的数据集规模亦呈指数级上升趋势，人类在漫长历史中积累的经验与文化正快速被人工智能这一新兴智能形态所汲取，岁月的积累成为培养未来科技的基底，知识的璀璨星光同时照亮了文明的过去、现在与未来。

随着越来越多的数据被AI所学习乃至理解，人们欣喜地看到，人工智能的智慧与能力正发生翻天覆地的变化，这种进化速度远超已知的任何一种自然或人类造物，但同样也带来了社会对未知的隐忧。

难以完全确认的是，在人工标识和清洗那些被AI所汲取的数据和文本时，那些同样根植于历史的系统性恶意与偏见能够被抹去。人们不可避免地发问，当似乎有着无限潜能的AI在仰望亘古以来的知识星空时，是否应同时对其教化以人类社会的精神和道德法则。

善意、德行与律法，当从AI生成与成长的源头追溯是什么塑造了人工智能的形态，似乎仍需回到由人类所生产与处理的数据本身，而如何在数据的构建和使用中建立规则，同样蕴含着我们与AI这一内容、工具抑或是伙伴真正的相处模式，以及互相影响的未来。

相较于隐私与版权问题，数据本身对AI的影响似乎更加“不可控”：一方面，AI训练与内容生成的黑箱化使得输出结果的溯源难度高不可攀；另一方面，人类社会道德标准尚未被完全内化为AI运作机理，但由此引起的伦理和安全问题却往往能引起广泛的舆论关注。在本篇，我们将重点关注数据的清洗和标注流程如何影响模型质量，以及有毒数据等数据库隐患的防范与治理应如何展开。

清洗与标注

国内百模大战愈演愈烈，作为燃料的数据，由其构成的高质量、大规模、丰富性的数据集，成为大模型竞争中必不可少的内容。

数据集从哪里来？以引爆AI热潮的海外大模型ChatGPT的为例，其模型数据集分为维基百科、书籍、期刊、Reddit链接、Common Crawl和其他数据集共六类；国内大模型的数据集多源于三个方面：厂商积累数据、公开渠道爬取的数据、各类免费或付费的第三方数据库与数据集。

而数据集中最关键的部分，是与模型任务相关度高、具备多样性和高质量的数据。考虑到收集而来的数据可能存在缺失、噪声、重复等情况，海量的数据并不能直接用于大模型，而是需要经过清洗、标注等工序后，生成可供大模型使用的数据集，再结合算法、算力等，从而真正用于大模型。

以GPT -3为例，其原始数据量为45TB，而经过清洗之后的高质量数据为570GB，以此为参考，经过清洗后的原始数据仅有1%左右的数据成为语料库中的数据。

成为语料库的数据需要经过哪些阶段？

清洗必不可少。绿盟科技天枢实验室主任顾杜娟在接受记者采访时表示，数据清洗即删除噪声数据和文本中的无意义信息，最终保留文本数据中对任务有用的数据，一般包括数据去重、错误纠正、异常数据删除、数据格式标准化。

页面分析，也就是把非结构化的数据进行结构化，是数据清洗的第一步。“以抓取到的网页数据为例，需要技术人员在原始文本中进行有效信息的抽取，如页面的标题、正文，图片的标题等；对于已经结构化的数据，要采取过滤等措施，比如各种反垃圾识别等，清洗之后的数据基本就是可用数据了。”一位从事算法工作的工程师对记者介绍称。

在他看来，数据清洗无非就是两个思路，一种是把垃圾数据往外推，另外一种就是把高质量的数据从海量数据中抽取。“大模型训练，在这个基础之上还会做相关的一些清洗，这可能会针对特定领域，比如人文科学、历史等，还要做特定的高质量文本的识别和抓取。”上述算法工程师介绍道。

标注同样重要。

“文本数据标注在自然语言任务中分为实体识别、关系抽取、事件抽取、词性标注、情感分析、句法分析等类型，具体取决于模型任务。”顾杜娟介绍道。

不同于传统深度学习使用人工进行标注，当前大模型所需要的数据无法通过人工完成，而是通过算法。上述算法工程师对记者介绍，根据经验推算，在大模型团队中，有相当比例的人从事数据的清洗和标注工作，而清洗和标注这项工作将贯穿整个大模型始终。

数据“防毒”

清洗和标注是构建大模型数据集的基本流程和提升数据质量的重要关口，但随着AI训练所需数据量的快速扩张，尤其是越来越多的AI与互联网相连，有毒数据等隐患亦开始成为AI可靠性乃至合规性的重要威胁。

早在ChatGPT横空出世前，数据中毒（Data poisoning）的问题就已被人工智能开发者所广泛关注，无论投放有毒数据的黑产目的是降低机器学习模型整体的可靠性，还是促使AI对某一面向的输出出现偏差，随着AI在金融、医疗、教育等领域的应用愈加深入，在训练阶段就埋下隐患的有毒数据可能带来更为具体的危害。

就攻击方式而言，引导向数据库注入有毒数据或修改现有数据集中条目都是可能的数据投毒措施：前者需要影响的数据量并不高——研究表明仅仅是改变0.00025%的数据（例如在苹果图片中混入其他图片并声称其为苹果）AI就会遭到欺骗；后者则更加难以被识别和排查。

NCC Group首席Chris Anley科学家曾指出，黑客有可能将精心设计的不良数据与正常数据混淆提供给AI，以增加发现应用“后门”的可能性。

此外，不同的大模型由于数据来源的不同亦可能导致对有毒数据的识别和防护能力存在差异，对于使用封闭数据库进行机器学习的模型，精度较高的数据清洗和标注流程可以较好避免有毒数据的污染，但对于需要实时更新乃至连接互联网数据库的模型，高频的数据流使得有毒数据更易渗透到AI的迭代与生成过程中。

顾杜娟指出，对基础模型而言语料库更多的是广泛的通用语料库，对于垂直领域大模型来说则更专注于特定领域的专业数据，不同模型的数据来源存在差异，语料数据来源渠道亦各不相同，这都给数据整体的准确性带来了变数。

值得注意的是，多位业内人士在与记者交流时指出，在AI高速发展期，从数据来源角度对有毒数据进行监管难度较高，更为可行的做法是对输入输出进行把控，但这种做法也面临着溯源难度高、处理滞后等问题。

“当前进行大模型开发工作的企业，数据来源往往都比较宽泛，自己积累的数据和外部获取的数据也难以有统一的高标准方案完全排除有毒数据，从安全角度而言，从大模型本身输出角度进行限制效果相对较好。”某互联网大厂人工智能架构师向记者表示。

但他也指出，近期AI发展热潮中大模型表现的“涌现性”特征及所谓的“AI幻觉”问题也体现出，单纯对AIGC输出内容进行监管，可控性也相对有限：“目前折中的办法是对使用场景进行较为明确的限制，将输出内容和形式限定在一定范围内，使得AIGC流程相对可控。”

安永（中国）企业咨询有限公司大中华区网络安全与隐私保护咨询服务合伙人张伟告诉记者，相较于在发生合规事件后倒推数据层面的问题，更好的方法还是在AI研发阶段就做好各个环节的合规管理工作。

“AI研发包含了很多细小的业务流程，代码、传输、应用等层面都需要有对应的检测方法保证来源与流程可靠。例如在使用开源数据库时对其是否经过认证，是否脱离社区维护，代码是否经过检查等进行检验，相较于训练后优化，训练前与训练过程中的合规管控要更为可行。”张伟说。

另一方面，针对从数据到输出的合规问题，产业链不同节点的厂商也在研究自己的解决方案。4月，NVIDIA（英伟达）在官网宣布开源NeMo Guardrails，以帮助ChatGPT等类似大语言模型支持的应用构建安全体系，降低非法、歧视、不道德等内容输出。

据其介绍，NeMo Guardrails可以帮助开发人员提升大语言模型支持的应用程序的安全性，包括代码、示例、文档、监控、安全信息过滤等。

“当前大模型产业发展方兴未艾，另一方面也愈加受到监管关注，作为收益最大的上游厂商之一，英伟达亲自下场帮助AI开发商提供合规和安全服务以争取监管和社会支持并不难理解。”上海某人工智能行业从业者向记者表示。

统筹：王俊

记者：吴立洋、郑雪、王俊

食疗食补

美食菜单

精彩推送