产品展示
大语言模型赋能文化生产的可能与反思ladbrokes立博体育
赵平广(清华大学新闻与传播学院博士研究生);赵员康(中国科学院计算技术研究所博士研究生)
基于文创理念的“创意—科技—生活”的观察视角,可以看到大语言模型技术在文化生产中的颠覆性可能以及根本性不足。应当在ChatGPT、Sora等前沿技术应用的积极探索中理性反思,充分审视人类不可替代的角色与能力。
当下,大语言模型(Large Language Model,以下简称“大模型”)作为最为先进的人工智能技术之一,因其所拥有的智慧涌现的能力而被认为是实现通用人工智能(Artificial General Intelligence,以下简称“AGI”)的重要路径之一。[1]正因为大模型具有类似人类思考的能力,ChatGPT等大模型应用有可能带来“恐怖谷”效应,引发人类社会对于人工智能作为“硅基生物”与人类作为“碳基生物”的斗争想象。新技术的“突然闯入”带来潜在的风险担忧,但同时亦伴随着社会生产的巨大想象空间。
对于文化产业而言,大模型作为人工智能领域的全新技术,是否能够成为文化生产的颠覆性技术要素,其作为技术要素与创意要素是否具备耦合可能?进一步来说,文化生产中是否会出现大模型技术对人类的替代?我们又将如何在探讨大模型技术在文化生产中的应用可能的同时进行理性审视与反思?
物质性与精神性是文化生产的基本特征。文化产业是以市场为资源配置方式,以社会化大生产为生产方式,生产文化产品或提供文化服务进而满足需求的行业门类的总称,其物质形态的产品或劳务形态的服务均是“人类精神活动的物化成果”[2]。文化产业的文化生产活动虽然以精神生产为主,但作为一般的人类实践活动仍具有物质性的特征,甚至科技化程度是评价当今文化生产发达程度的重要指数之一。[3]可见,文化产业所开展的文化生产活动兼具物质性与精神性,缺一不可。
在文化生产的视域下,强调精神性的创意要素与强调物质性的技术要素相伴相生,二者之间具有某种界限与关联。文化创意具有符号性、个性化、启发性、突破性的特点,技术创新具有实物性、团队化、功能性、渐进性的特点,两者呈现出主观与客观的区分。[4]对于具有非物质文化生产特征的文化产业而言,技术是文化生产的实现方式,是文化产业重要的驱动要素,作为形式的技术服务于作为内容的文化。[5]可见,创意要素与技术要素作为文化产业的两个关键生产要素,虽然有差异性但是也有关联性与耦合性,具有融合发展进而推动文化产业提质增效的现实空间,使诸多前沿科技应用于文化产业成为可能。
自20世纪末以来,文化产业的发展始终伴随着文化创意与科学技术的迭代应用。文化产业需要实现个性化、多样性的创意引领,始终与新技术手段相融合,以创意、科技与生活作为推动文创发展的重要视角。[6]其中,体现人的创造性与能动性的创意要素始终是文化产业的“引擎式生产要素”[7],以精神生产满足人的根本的精神需要。而随着科技的发展,技术要素愈发重要,尤其在近年来的数字化、智能化技术革命浪潮中,文化产业的全流程环节均受到不同程度的颠覆。以数字技术带来的文化产业数字化为例,其体现为“广义的数字技术对于文化产业的生态体系进行更新再造”,具有整体性、融合性、颠覆性的特点,且最终致力社会效益与经济效益的提升。[8]当下,大模型技术的出现与应用为已经经历数字化改造的文化产业提供了又一巨大的想象空间。
OpenAI发布名为ChatGPT的技术应用引发全世界的持续关注与热议。ChatGPT是GPT(Generative Pre-trained Transformer,生成式预训练转换器)大模型技术在对话系统领域的应用。以GPT为代表的大模型是一种颠覆性的自然语言处理技术,凭借其庞大的预训练数据和模型规模,能理解复杂的上下文关系,并生成自然连贯的文本,可应用于如机器翻译、问答系统、文本摘要、对话系统等多种任务,甚至表现出一些超出其设计者预期的智能行为或能力。而除了以文本字符为处理对象外,图片与音频等多种媒介形式同样可以作为大模型技术的处理对象。
1.多模态处理。大模型多模态能力是指模型可以同时处理多种不同类型的数据,例如文本、语音、图片和视频等。大模型主要通过三个阶段达到技术实现:多模态表示学习,将不同模态的数据映射到同一表示空间中,使得不同模态之间可以进行有效的对齐和关联,为数据处理做好准备;跨模态学习,将不同类型的数据进行融合和联合建模,使得模型可以同时处理多种数据;多模态注意力机制,根据不同模态的信息可能具有的不同重要性,自动关注不同模态中的重要信息,提高模型对数据的检索、提取、处理效率。
文化产业所涉行业种类繁多,包含图书、音像、影视、演艺等,包含海量的多样数据信息,对技术应用具有数据处理方面的准入要求。尤其在数字技术的支持下,海量的存量信息实现数字化并以超乎想象的增殖速度产生大规模的增量信息,且信息多元化、多样化、复杂化。如此,大模型技术的多模态处理能力实现了“以技术打败技术”,在信息处理中实现多模态、高效率、智能化,为人类撬动数据世界提供了杠杆与支点,并为大模型技术在文化产业中的应用提供了可能。进而大模型技术可以实现的是,使文化产业数字化摆脱“电子化”“信息化”等简单的升级改造,实现生产、分配、交换、消费等全环节的数字化变革,[9]将数据信息真正转化为数据要素参与文化生产,进而有效承载数字经济并释放其发展动能,培育文化消费的新增长点。[10]2024年2月,OpenAI发布文生视频模型Sora,其视频生成的体量与质量得到大幅提升,应用场景更为广泛,为文化产业的创新发展提供了全新的想象空间。
2.智慧涌现。大模型能够表现出一些超出其设计者预期的智能行为或能力,甚至具备AGI的雏形。大模型之所以能涌现智慧,主要原因在于其训练的规模与深度。首先,大量的训练数据使模型学到丰富的知识,从而能处理各种复杂场景。其次,大量数据所训练得到的庞大模型能表达更为复杂的函数,深度捕捉更多的特征和关系,从而使更加自然流畅的文本生成得以实现。由此,大模型具有了一些智能的特性,例如推理、逻辑和常识推断等。这些特性是由于大模型能够通过数据训练学习到更广泛的知识和经验,并能够将其组合和应用到具体任务中。可以说,大模型“展示出惊人的理解力和创造力”,带来了一次人工智能的重大革命。[11]
大模型技术所具有的智慧涌现能力,被认为能够像人一样思考,直指文化生产中的创意生产环节。具有符号性的创意是文化产业的价值来源,其特性之一是极高的个人化。[12]那么,通过大模型技术的应用,是否能够实现“智能体从有机体扩展到非生命体”[13]的可能?换言之,大模型在创意生产的环节中能否实现对人类劳动的部分甚至全部的替代?诚然,目前大模型技术仍然具有不可解释性,因而具有一定的不可控性,并不完全具备如人类一样的智慧。但是,业界的前沿实践已经显露出大模型技术对创意生产者的职业冲击。2023年10月9日,美图公司发布视觉大模型MiracleVision(奇想智能)3.0版本,创始人称该大模型可以实现真实细腻的画面描绘,可以助力广告、游戏、动漫等多行业,同时称“在短期内不会替代人类的创造性工作”[14]。在文化产业前沿不断探索、优化、完善大模型技术的现实应用的背景下,大模型技术已然成为悬在部分创意生产者职业岗位上的“达摩克利斯之剑”。
3.自动生成内容。大模型通过在大量无标签(label)数据中进行一般性的无监督学习,训练深度神经网络(DNN)模型。基于已有的海量数据呈现出的符号(token)间的排列规律,计算符号出现的条件概率,其可以根据上文预测下一个或下一连串符号ladbrokes立博体育。而后经过有监督学习或自监督学习实现针对特定任务的模型微调,便可实现针对特定任务的处理与输出,实现内容的自动生成。ChatGPT作为大模型技术在生成对话领域的应用,其在对话任务中可使用人工或自动生成的对话数据来构造微调数据,对大模型进行不断的微调,体现为ChatGPT愈发地“理解”用户。此外,仰赖多模态处理能力,文字、图片、音频、视频等不同的数据输入形式可以在大模型中对应多形式的数据输出。
大模型因其生成能力被归属于生成式机器学习模型,而其所生成的内容被称为“Artificial Intelligence Generated Content”,即“AIGC”。[15]相较于判别式机器学习模型,大模型所属的生成式机器学习模型的优势是可以实现多模态内容的智能生成。而这一优势被认为为相关行业带来超出简单的生产逻辑量变叠加的质的变化,导致相关领域中人的主体地位与行业地位的危机。[16]“人工智能教父”Geoffrey Hinton认为大模型的无监督训练类似孩童诞生之初对无反馈的世界的学习与理解,而人类的反馈强化学习形同父母在孩童成长过程中的教导。[17]由此可以将大模型技术的学习训练类比为孩童对人类社会的学习认知,大模型训练完毕即意味着孩子养成,便可以拥有自主行为的能力,进而实现创作。可以说,大模型的生成能力与智慧涌现与多模态处理难以分割,否则其仅仅是一串无用的同质化数据信息的简单增殖。正因如此,大模型技术通过智能创作内容,具有内容创造力、多模态融合、认知交互力等特质,[18]这使其在文化生产中的应用空间广阔,也成为当下文化产业技术发展的前沿热点。
大模型技术尽管带来了巨大的想象空间,但在文化生产中应用时仍具有一定局限,而这些局限在一定程度上也是大模型技术在其他行业中应用的“通病”,主要体现在以下三个方面。
1.应用成本仍然较高。大模型技术存在一个经验规律,即语言模型的性能与参数量、语料库规模与训练吞吐量存在幂律关系,即训练模型的数据量越大,其模型性能越好。[19]以GPT-4为例,其预训练数据达到60TB,最大参数量达到10000亿,技术性能较上一代得到了巨大提升。而庞大的数据规模与计算需求引发业界对大模型实用性的担忧,存储空间、计算资源、能源消耗等投入十分巨大。[20]而文生视频模型Sora更是需要极强的算力支撑复杂且庞大的计算需求,更需考虑多任务并发条件下计算需求短时激增的问题。目前,大模型技术在多行业加速落地,随之带来行业对算力的巨大需求,进而造成人工智能芯片的价格猛涨与“一卡难求”。
值得注意的是,针对企业自行开发大模型的高投入成本、长训练周期等问题,技术开发商提出“生成式人工智能+多云”的模式,即通过包含公有云和私有云基础设施的多云环境,提供具有高稳定性、高性价比的人工智能基础设施。[21]此外,2023年10月12日汉王科技发布其专注于私有化部署的大模型,声称可以将企业应用大模型的成本降至“50万元起”。[22]随着技术的不断发展,大模型应用成本可能会进一步降低,但企业应用大模型技术所带来的人力成本、管理成本等仍然不可忽视。
2.训练数据要求偏高。大模型的技术性能由训练数据的数量与质量共同决定。[23]不论是一般性应用场景还是专业性应用场景,大模型的训练数据规模已远远超出人类的能力范围。况且ladbrokes立博体育,在更大量数据输入带来更准确输出结果的逻辑下,训练数据的数量往往会作最大化处理。此外,文化产业所具有的文化性即意识形态性质,[24]其所生产的文化产品与服务具有较强的外部性,故而更需要对数据进行严格把关,在持续扩大的海量训练数据中对数据的质量进行把控,尤其是对有错误、有偏见、有争议的数据内容进行剔除,避免数据污染,以此实现大模型输出内容中所含的错误、偏见、争议内容的最小化,为大模型技术在文化产业的应用提出了较高要求。
3.技术能力仍存局限。微软学者在对GPT-4大模型的评价论文中,着重提到大模型基础技术逻辑所造成的局限性,即缺乏计划、工作记立博官网入口忆、回溯能力和推理能力。[25]大模型技术的Transformer架构采用一种时间序列建模的基础性方法,用于描述时间序列数据中变量与其过去观测值之间的关系,这造成大模型依赖于生成下一个单词的局部过程,而对任务或输出没有任何全局或深度的理解。因此,大模型擅长产生流畅连贯的文本内容,但在解决复杂或创造性问题时存在一定的局限性,这些问题无法以线性顺序的方式进行处理。具体而言,大模型并不能保证生成的一篇长文章或者一本书籍的连贯性,可能存在下文不停重复上文的问题。而文化产业的创意生产环节中必然存在具有复杂性、创造性的工作任务,这就要求大模型在文化生产中通过进一步的技术调整或人工参与来弥补能力的不足。
胡钰教授基于当代文化发展实践提出文创理念这一新观念,认为个性化的创意视角、现代化的科技视角、社会化的生活视角是文创理念的三大观察视角。[26]“创意—科技—生活”为我们在文化生产中审视、反思大模型技术应用提供了很好的角度。
从科技视角审视大模型这一新技术,我们需要承认大模型是人类社会现代化技术发展的一大成果,甚至具有里程碑意义。当下,人人不离手机,手机似乎成为一种“人体器官”,印证了麦克卢汉所提出的“媒介即人的延伸”。而大模型技术似乎正在成为另一种“人体器官”——大脑,能够学习、思考、对话、生产。如果说媒介化、信息化、数字化等技术发展为文化产品与服务的物质形态、呈现方式带来了新的技术革命,那么大模型技术更是为文化产品与服务的精神内容生产带来新的可能。于是,从科技视角出发,我们应当在以精神生产为主的文化产业领域积极拥抱大模型技术。
从创意视角出发,大模型技术似乎同样具有极大的应用可能,可以通过稳定的、高效率的人工智能技术生产实现对个体化创意生产的成本与风险的规避。但是,完全依赖大模型技术生产的内容是真正的创意内容吗?可以成为文化生产中的创意要素吗?大模型技术通过任务指令、人工提示所产出的内容可以被理解为“新”,是因为大模型技术基于训练数据寻求最大概率、最优解而生产一系列字符,字符间的排列顺序与以往内容的字符顺序存在差异。但是,这种差异具有一定的随机性,造成“新内容”具有一定的理解困难,人类甚至需要通过“强行解释”使大模型生成的“新内容”合理化。归根到底,是因为大模型技术作为一种物质性的存在不具备人类所具有的生命力以及由生命力带来的创造力,也就无法认为大模型具有创意视角下的个性化能力。所以,从创意视角出发,大模型技术并不能独立地、完全地开展创意生产,人类仍是不可替代的、具有主体性地位的。不可否认的是,大模型技术在人类的创意生产中可以作为工具性、辅助性的重要技术要素,实现对一部分人类工作的替代。
从生活视角出发,大模型技术更是无法替代人类在文化生产当中的关键角色。文化需求作为人类社会日益增长的美好生活需要的关键组成,体现了人们对于幸福生活的向往与追求。而文化生产服务于生活,同样来自生活。人类凭借视觉、听觉、触觉、味觉等感知大千世界的日月星辰、鸡鸣犬吠、春夏秋冬、酸甜苦辣,才有生活的喜怒哀乐,才有丰富多彩的文化世界,才有绵延不绝的人类文明。从这一角度讲,生活构成了人类在文化生产当中的灵性,带来了人类作为生命体与大模型技术作为非生命体的最大区别——是否具有灵魂。灵魂这类的“人类素质专用词”是与生命体并生的,“无法须臾离开”,大模型实现的是人类语言的表达而非人类意义的表达。[27]所以,大模型技术有其根本性的局限,更无法在文化生产中实现对人类的完全替代,只是工具性、辅助性的存在。
大模型所带来的技术革命与广阔前景使人类社会的各行各业面临重组甚至是颠覆的可能。我们在看到大模型技术带来的应用优势的同时,也应理性地看到其目前存在的技术局限,避免陷入技术乐观主义的陷阱,当然也应避免陷入技术悲观主义的误区。诚然,有不少人对大模型技术发展持积极态度,认为大模型技术作为问世不久的新技术,当下的技术局限会在日后的发展中被一一解决。但是,这并不意味着大模型技术将在文化生产中实现对人类的完全替代,这是由当代人类文化生产的创意化、科技化、生活化本质决定的,亦是本文以“赋能”解释大模型技术在文化生产中的角色功能的原因。
综上,在大模型技术的发展与应用中,不能站在对机器中心主义的简单摒弃和对人类中心主义的盲目因循的保守立场,而应以人类自身作为技术赋能的逻辑起点、行动锚点与目的终点——一切新技术应用都应对人类社会有总的、整体的增益。诚然,文化生产中的新技术应用会带来生产力、生产资料与生产关系的更新、重组与变革,会呈现新旧势力间的交流互动、此消彼长甚至摩擦冲突。此间,避免偏激的一拥而上或是保守的故步自封,就需要从创意、科技、生活的视角,理性考虑“碳基生物”与“硅基生物”的优劣长短,实现人机互动下高质高效的创意生产,同时避免对原有的、传统的文化生产中优秀创意的排斥、湮没;通过技术优化、成本控制、市场论证、规模应用等,避免科技神话的未来愿景与当下处境的持续撕裂,实现科技有效的、可持续的融入与赋能;实现美好生活图景的建构,即一种共享的而非奴役的、灵动的而非呆板的、真切的而非虚无的、美丽多彩的而非机械重复的生活。
基于文创理念的“创意—科技—生活”观察视角,我们可以看到大模型技术在文化生产中的颠覆性可能以及根本性局限,我们应当在前沿技术应用的积极探索中理性反思,充分审视人类不可替代的角色与能力,即一种来自创意生活的灵性与灵魂。
[4][12]周莹,刘华.以创意为核心的文化产业发展驱动要素研究[J].管理现代化,2014(05):19-21.
[5]向勇.文化与科技融合发展的历史演进、关键问题和人才要求[J].现代传播(中国传媒大学学报),2013(01):55-57.
[7]徐海龙.创意不会导致“生产要素拥挤”?:试论文化生产中的创意成本及风险[J].国际新闻界,2023(05):140-155.
[10]范周.数字经济变革中的文化产业创新与发展[J].深圳大学学报(人文社会科学版),2020(01):50-56.
[11][20]龚睿昊,范云潜,魏秀颖,等.大语言模型时代的落地方法论:成本、效率与效果[J].人工智能,2023(03):52-61.
[15][18]李白杨,白云,詹希旎,等.人工智能生成内容(AIGC)的技术特征与形态演进[J].图书情报知识,2023(01):66-74.
[23]徐月梅,胡玲,赵佳艺,等.大语言模型的技术应用前景与风险挑战[J/OL].计算机应用.
[27]王峰.人工智能需要“灵魂”吗:由大语言模型引发的可能性及质疑[J].上海师范大学学报(哲学社会科学版),2023(02):5-13.
赵平广,赵员康.大语言模型赋能文化生产的可能与反思[J].青年记者,2024(07):89-93.