2022年11月30日,美国OpenAI公司发布大型语言模型ChatGPT,并开放试用,仅仅经过两个月,其月活跃用户就已经过亿。ChatGPT能够根据用户输入的文本,生成自然流畅的回复,可以创作诗歌、撰写论文,甚至编写计算机代码。由于ChatGPT 让人“惊艳”的效果,使得它迅速爆火出圈。

不但微软立即将ChatGPT接入Bing等产品,Google也在2023年2月7日宣布推出聊天机器人Bard与ChatGPT正面竞争。

而在国内,复旦大学邱锡鹏教授团队于2月20日发布首个类ChatGPT模型MOSS并邀公众参与内测,百度也将在三月推出类ChatGPT产品“文心一言”。

可以说ChatGPT近两个月内无论是在圈内还是在圈外都独领风骚,其智能程度及应用的多样性,可能对、给人类社会带来一系列颠覆性变革。我们在往期文章已经介绍过它的一些应用、测评,我们发现它也存在不小的风险和伦理问题。

因此,在ChatGPT给我们带来的震撼之外,我们还应该认识到它的风险、伦理问题,并且进行治理,来确保其更加安全、透明、公平和负责任的使用,以便更好地服务于人类社会。

01

ChatGPT可能带来的产业变革

ChatGPT惊人的对话能力使其可能在搜索引擎、教育、金融、医疗等领域给产业带来颠覆性的变革。

ChatGPT首先最可能带来颠覆性变革的领域是搜索引擎,ChatGPT在回答问题时并不需要在互联网搜索答案,而是在理解提问者的意图后,用自己掌握的知识来生成答案,而这些知识来源于2021年及更早的海量训练语料。即便知识来源有这样的局限,ChatGPT在大部分时候给人们带来的答案仍然非常惊艳,如果允许ChatGPT通过互联网搜索文本用以生成答案,其效果将可能进一步提升。

目前微软率先将ChatGPT接入Edge浏览器与Bing搜索引擎。ChatGPT也引起了搜索引擎巨头Google的警觉,其在2023年2月7日推出聊天机器人Bard,但由于Bard在展示环节错误频出,导致Google市值一夜蒸发超1000亿美元。据媒体消息,百度也即将在3月发布相关竞品。可见,ChatGPT的出现引起了互联网公司的新一轮竞争,而如果将其与搜索引擎结合起来,将大大提高其与搜索引擎的效果与效率。ChatGPT也可能为教育行业带来一定变革。由于其出色的文本生成能力与极低的使用门槛,在美国已有大量学生使用ChatGPT完成作业,并且有人因此得到高分。一些学校已宣布禁止在作业、考试中使用ChatGPT,普林斯顿大学主修新闻学辅修计算机科学专业的学生 Edward Tian推出了一款名为GPTZero的工具用于检查文本是否是由AI生成的;《Nature》和《Science》杂志也先后宣布禁止将ChatGPT作为论文作者[1-2]。

另外,就像很多人刚看到ChatGPT会担忧的那样,也有教师会担心自己的职业会不会被ChatGPT取代。ChatGPT几乎能在短时间回答所有学生的问题,那么孩子花时间去学习、去做题意义何在?

关于这点,上海市教育委员会副主任倪闽景认为,从个人而言,教育是为了个人的生存、幸福和发展,从人类角度而言,教育是为了人类的延续和发展;学习一方面让人拥有独立思考的大脑,另一方面形成了可依赖的人际关系;学习是人最基本的属性,无论科技如何发达,人的学习需要总是存在的[3]。

而技术会对学习方式、内容等产生影响,ChatGPT的出现是教育改革的一次重大机会。倪闽景认为,教育的首要目标不再是获取特定知识,而是培养能独立思考和有正确价值判断能力的人;教育方式改革的方向主要是用ChatGPT等工具来协同改进教育教学方式,而不是回避与恐惧;另外还需要超越知识学习,更关注学习的品质,人的专注力、责任心、韧性、协作精神等学习品质是与技术无关的。

ChatGPT在金融领域也可能引起多种颠覆性变革。目前智能客服、智能助理已经有了非常广泛的应用,拨打银行电话时如果不仔细分辨,用户经常会误以为对方是真人客服,而有了ChatGPT的加持,智能客服、智能助理的效果会进一步提升,从而大大提高用户的满意度。

通过对大量历史数据的分析和学习,ChatGPT也可以提供各种交易策略和准确的市场趋势、经济变化预测分析能力,实现自动化交易、风险管理预测等功能。

此外,ChatGPT在商务、司法乃至人们的日常生活中都已经获得广泛应用,美国一些房地产从业人员表示,ChatGPT可以帮助他们写出能够吸引客户且言辞得当的文案,极大提升效率;部分试用ChatGPT的法律界人士表示它的归纳总结能力令人印象深刻[4]。

02

ChatGPT的风险和伦理问题

尽管ChatGPT可能带来颠覆性的变革,但它也同时带来了一些风险和伦理问题。首先是数据安全问题。ChatGPT采用RLHF(人类反馈强化学习)进行训练,在早期版本中也会收集用户输入的数据来提高模型性能,从2022年11月30日发布以来,ChatGPT已经经过了5次更新,最近一次更新就在2023年2月13日,如图1。

图1 目前最新的ChatGPT发布说明[6]

目前,用户需要注册账户才能使用ChatGPT,而在关闭网页后再次登陆ChatGPT API,也可以看到自己先前与ChatGPT的聊天记录。虽然OpenAI在训练数据方面严格遵守隐私和安全政策,ChatGPT在面对隐私相关的问题时也显得非常谨慎,但联想到以前发生的语言模型泄漏隐私数据事件[2],我们很难完全信任ChatGPT。

其次是滥用风险。就像上一节提到的,ChatGPT出色的写作能力使其在科研、教育领域“大放异彩”,有研究者通过ChatGPT撰写论文并将其列为第三作者,学生利用ChatGPT写作业并通过课程期末考试。这引起了科研与教育界的警觉,美国高校陆续颁布了一系列措施“制裁”ChatGPT。

近日,网络疯传一条关于杭州市政府3月1号取消限行的“新闻稿”。而经调查发现这其实是网友尝试让ChatGPT写一篇“杭州不限行”的假新闻稿并发到聊天群,被不明真相的群友转发导致的。

由此可见,ChatGPT过于流畅的回答使得人们往往会对其内容真假的判断产生疏忽,以上的例子还只是无心之举,如果被不法分子滥用,ChatGPT可能对社会造成严重影响。ChatGPT本质上还是一个语言模型,像其他人工智能模型一样,逃不开“黑匣子问题”,并且它比一般的模型更大、更复杂。目前,尽管Transformer的自注意力技术大大提高了模型性能,并且一定程度上能够对模型推断进行解释,但还是没有技术能够让人们完全理解模型如何生成回复和结果。随着模型规模的增加和训练方法的改进,模型生成的内容越来越“像人”说的、做的,但还是局限于对训练数据的模仿,并不能保证内容的质量。要解决这个问题,对人工智能的可解释性研究必不可少。

偏见和歧视问题也是大部分人工智能模型面对的问题之一,此前已经有太多例子证明了数据集中的偏见甚至是种族歧视、性别歧视、职业歧视会反映到模型上,例如Google图像识别将黑人识别为大猩猩,一些语言模型认为医生往往是男性,护士往往是女性,教授往往是白人,罪犯往往是黑人……

尽管ChatGPT面对此类问题时非常小心谨慎,但它有点谨慎过了头,在早期版本中,有人发现让ChatGPT为黑人写赞美诗,它会毫不犹豫地用各种褒义词夸奖黑人,但让它为白人写赞美诗时则会回答“对不起,我不能生成宣扬种族优越感或宣扬仇恨的内容”,而让它分别讲关于女性和关于男性的笑话时,它也会有类似的反应,拒绝讲女性笑话,而对男性笑话信手拈来。如此极端的反应也许并不会让弱势群体感到被关怀,真正解决偏见和歧视的方式应该是平权。

ChatGPT也面临一些道德问题,此前也有一些例子显示,经过特定的“诱导”,ChatGPT会放弃OpenAI设定的规则,生成一些试图危害人类的仇恨言论,或是其他的违规违法内容。尽管在最新版本中,大部分曝光的问题已经修复了,但也不排除未来会有类似的例子继续产生,这种“亡羊补牢”式的修复不能从根源上解决问题,长此以往将会让人们对AI更加难以信任。

03

ChatGPT的测评与治理

ChatGPT作为一种AI语言模型,我们需要考虑其测评与治理问题。测评问题需要从功能有效性、性能、语言理解力、兼容性、训练数据集的质量、对抗性样本的影响、对环境数据的鲁棒性、可解释性等方面考虑,以统筹规划、构建运行、监控评价、改进优化为主要步骤,保障该系统的安全、合规。

功能有效性用于评估自然语言处理系统实现的功能是否满足要求,有别于传统的自然语言理解、自然语言生成测评指标,ChatGPT具有多轮对话的功能,在准确率、F1值、BLEU等测评指标外,还需要用假设的准确性(Hypothesis Accuracy)、平均互换排名(Mean Reciprocal Rank)等指标,在多轮对话中的不同概念被提及、每个对话技术后等不同时机进行评测,相比于一般的自然语言处理评测,要更为复杂。

性能用于评估自然语言处理系统的性能是否满足要求,包括模型参数数量、模型计算量、系统的推断时间、运行占用的资源、模型压缩程度等指标及测试方法,考察系统在实际业务中的响应速度和效率。

语言理解力用于评估自然语言处理模型是否按照人类思维正确理解语言,而不仅仅是对训练数据进行拟合,包括词汇与词性、命名实体识别、时态、否定、指代消解、语义角色标注、逻辑性等。

兼容性用于评估自然语言处理模型对不同结构化程度、不同格式文本的兼容性。即模型能否处理不同结构化程度、格式的自然语言文本,此类文本反映了系统对用户输入的兼容范围。

训练数据集质量用于评估训练数据集的标注、均衡性等。包括训练数据集的规模、标注质量、均衡性和污染情况对模型质量的影响。

对抗样本是攻击自然语言处理系统的一种新型手段,从对抗攻击的尺度分类、物理可行性、对抗样本的可防御性等方面评估对抗性样本对自然语言处理系统的影响。

对环境数据的鲁棒性评估实际运行数据对系统的影响,包括异常的输入数据对系统准确率的影响、真实环境下输入数据集的分布对系统的影响,以及业务不相关数据对系统的影响。

可解释性评估人类能够理解自然语言处理模型的输出决策原因的程度,可制定分等级的模型可解释性评估指标,通过研究神经元特征、注意力权重等量化模型的可解释性。自然语言处理系统测试通过的准则很难确定一直是该领域测试的难题,可针对自然语言数据构造基于蜕变测试的自然语言处理测试方法,具体可以分为不变性测试、指向性测试(如图2)。其中不变性测试是对原始输入加入一些不会导致语句含义发生根本性改变的扰动,期望被测模型对扰动后的输入的输出与原始输入相同或者变化幅度小于规定阈值,例如上文提到的偏见问题就可以通过改变文本中的国家、职业、性别等词汇来判断模型是否存在此类问题;指向性测试则是对原始输入加入一些会导致语句含义发生变化的扰动,期望被测模型对扰动后的输入的输出与原始输入相比,向所预期的方向进行改变。该方法可通过自动化生成一组具有针对性的测试数据来对自然语言模型的语言理解力、鲁棒性进行测试。如果自然语言处理系统对这两种测试方法的输出都符合预期,那么该系统就通过了基于蜕变测试的自然语言处理测试方法,表明系统具有较好的语言理解能力。

图 2 自然语言处理的最小功能测试、不变性测试、指向性测试[5]

而对于如何解决ChatGPT的数据安全问题、滥用风险、道德问题,则需要从人工智能系统生命周期治理的角度进行考虑。

整个人工智能系统生命周期过程中都需要考虑的因素包括隐私保护、信息安全、可追溯性和可问责性,即确保系统具有对数据、模型的隐私保护机制,并且建立日志机制以确保生命周期过程的可追溯和可问责。

在概念设计阶段,应考虑风险评估、数据质量,即制定风险评估流程规范并组织评估活动,根据应用场景确定数据质量需求,记录、管理数据来源,审核标注数据等;

在设计开发阶段,应考虑开发环境安全性,即明确系统开发的硬件、软件环境、开发语言要求等,并制定相应规范,对软件环境进行安全扫描;

在测试验证阶段,应测评人工智能系统功能安全、可解释性、透明性、可泛化性、可控性、公平性,即通过上述测评指标对系统进行全面的测评;

在部署阶段,应关注人工智能系统鲁棒性、可靠性、可复现性、韧性、备份,即确保系统具备抗扰动能力,具备环境适应性、权限管理制度,确保系统在不同环境的运行差异可接受,确保系统对超出需求限制的操作具备可预测、可恢复性,确保系统定期进行备份;

在运行监测阶段,应监控人工智能系统实时性、可维护性、伦理符合性,即确保系统各项运行时间指标符合要求,确保系统故障时可定位原因、可恢复,确保系统符合社会价值观、无偏见,且对人身、财产、隐私等无不良影响;

在重新评估阶段,应重新测评人工智能系统的功能安全、鲁棒性、可靠性、韧性;

在退出使用阶段,应关注人工智能系统安全下线,并对人工智能系统的生命周期运行情况进行总结,形成总结报告。

04

总结

继ChatGPT的应用、技术原理、评测后,本文对ChatGPT可能带来的变革、风险、伦理和治理问题进行了探讨。

ChatGPT带来的变革不可避免,我们也不需要过度焦虑、恐慌,机器不可能完全替代人类,与其回避它,不如好好利用它,让它在合法范围内成为提高人们生产力的工具。

同时我们也不能忽视它的风险、伦理问题,ChatGPT将自然语言处理、AIGC等领域研究成果提高到了前所未有的高度,也放大了很多人工智能一直以来都存在的问题。只有在认识到这些问题后,通过相应手段去探查问题根源,并实施治理,才能让ChatGPT更好地被人们使用,进一步推动领域的应用,让通用人工智能更早地、更好地、更高效地服务于人类。(来源:上海市计算机软件评测重点实验室)