[中国档案报]徐拥军 陈晶晶:AI时代维护国家意识形态安全尤需加快档案开放
发布时间:2025-11-01当前,人工智能深度融入人类学习、生活、工作场景,成为塑造人类生产生活范式的关键力量。新生事物往往伴随巨大不确定性。人工智能因自身技术特点引发的语料偏见、算法黑箱、幻觉等问题,导致片面、虚假乃至歪曲事实的信息被大规模生成与传播,正逐渐消解传统意识形态安全屏障。习近平总书记强调:“要加强人工智能发展的潜在风险研判和防范,维护人民利益和国家安全,确保人工智能安全、可靠、可控。”档案作为最原始、最真实的记录,其本质便是意识形态建构的关键信息载体。维护国家意识形态安全,是档案工作不可推卸的政治责任。
然而,由于涉及大量国家秘密、商业秘密与个人隐私,档案开放通常“慎之又慎”。但进入AI时代,如果作为“维护党和国家历史真实面貌”的档案开放不及时,将无法为大模型提供正确的数据、语料,那么大模型就会给用户提供错误的、片面的内容。这要求我们必须转变观念,倡导“能开放的就尽量开放”,以充分发挥档案在维护国家意识形态安全方面的内在价值。
一是严防语料偏见,筑牢话语根基。全球人工智能竞争已从技术较量进入价值观博弈新阶段。数据作为驱动人工智能训练的黄金燃料,其规模与质量直接决定了模型性能的上限。当前,大模型的训练数据高度依赖英文语料,中文语料严重短缺。《大模型训练数据白皮书》显示,在全球网站语料中,英文内容占比高达59.8%,而中文仅占1.3%。这种数据格局极易引发语料偏见。具体而言,就国内来看,中文语料的匮乏会导致大模型训练不得不大量依赖源自西方价值观的数据资源。长此以往,不仅会稀释中国特有的认知体系,挤压中华优秀传统文化的传播空间,还会为西方思潮的渗入留下空隙,危及文化主权阵地。而国际方面,英文语料的垄断性优势极力削弱中国话语权,容易使国家形象陷入“他塑”而非“自塑”的战略被动,导致人工智能生成内容常因文化视角偏差而偏离中华文明的核心内蕴,造成国家软实力的无形折损。
加快档案开放,为人工智能提供系统训练数据,支撑建设大规模中文语料库,是从源头降低语料偏见、筑牢中国叙事话语根基的关键路径。据国家档案局统计,截至2024年底,全国各级综合档案馆馆藏档案已达13.86亿卷(件),电子档案存量约2812.7TB。这些档案资源如能开展专业化的系统整合、分类整理、数据清洗与内容标注等,可转化为承载中华文明的高质量语料。如此一来,不仅能显著提升中文数据在人工智能训练中的基础比重,矫正语料库的结构性偏差,更能助力大语言模型深入理解并准确反映本土价值取向和中华优秀传统文化独特背景,从而在全球化背景下保持和彰显中华文明的独特性。
二是力避算法黑箱,匡正价值导向。生成式人工智能的算法黑箱被普遍视为意识形态风险的核心诱因。算法黑箱指的是人工智能决策过程的不可追溯性,即人工智能系统中的运行机制、计算逻辑或数据处理方式无法被外界有效审视、解析与验证的现象。由于算法黑箱的不透明性,外部用户难以像审查人类作品那样直接审视其“思维”过程,也难以解释模型为何作出特定预测或推荐,更难以追溯内容生成所依据的原始数据、决策规则及背后隐藏的推理依据。这一技术特性,使人工智能系统极易成为意识形态交锋与多元价值观输出的隐蔽通道。倘若利用算法黑箱的隐匿特性,恶意编写代码将含有偏激思想、憎恨情绪、极端话语的内容嵌入正在推送的“加工信息”中,将导致对立情绪弥漫、价值认同撕裂等严重后果。
加快档案开放,前端为人工智能算法推荐池注入被中华文明统一性、包容性、和平性浸润的档案内容,稀释、中和算法加工信息中的噪声与偏见,是规避算法黑箱隐匿潜在风险的保障手段。档案作为文明传承的重要载体,自结绳记事、甲骨金石、简牍缣帛至纸张、电子等形态,始终以全面、系统、连续的方式,完整记载了中国社会发展的整个历史进程。档案承载着中华五千年文明可解释、可追溯和可验证的民族命脉,是体现我国民族精神与文明风貌的重要代表。如能通过系统调用手段,将全面反映中华优秀传统文化和社会主义核心价值观的档案内容嵌入算法推荐池,便可使机器学习算法建立在符合主流价值导向的数据基础之上,从而有效降低其输出结果中的随机性偏差与潜在有害影响。
三是破除AI幻觉,明晰认知边界。人工智能大语言模型具有超长上下文窗口以及强大的语义理解、逻辑推理和内容生成能力,能够对信息资源进行自动分类、主题标引与关键词识别,有效支撑用户学术研究、商业分析、创意生成等场景需求。然而,技术理性的过度扩张也伴随着显著的认知风险,其突出表现为AI幻觉。该现象指人工智能在应用过程中,对语义单元进行任意组合、排列和拓展,生成看似合理实则充满事实错误、逻辑漏洞或关键信息缺失的文本、图像与音视频内容。譬如,凭空生成一段看似翔实的历史记载、捏造一个不存在的权威报告、名人名言或社会事件。当此类由人工智能生成的与事实不符的信息在社交网络、搜索引擎和通讯平台广泛传播时,就会形成谣言,混淆公众认知、煽动社会情绪、激化群体矛盾,冲击主流意识形态传播渠道的公信力。
加快档案开放,后端为人工智能生成内容的真实性验证提供权威凭证,巩固社会信用体系,是避免AI幻觉模糊现实与虚构认知边界的有力对策。档案是当时、当地直接形成的历史产物,凝聚了不可替代的事实性经验,被视为不容置疑的证据。作为人类社会活动的原始记录,它能清晰、确定地再现各领域的历史真实面貌。若把如此广泛的原始记录用于人工智能生成内容的验证与纠偏,将能全面覆盖各类主题,从而构建起坚实的真实性防护体系。具体来说,面对不符合历史事件、人物、文化等事实的人工智能生成内容,档案馆可主动公开档案,并提供完整的背景链条与历史脉络,以权威史料正本清源,有力回击历史虚无主义。此举不仅能为维护意识形态安全提供支撑,更可推动档案机构成为AI时代具有公信力的权威机构。
诚然,加快档案开放可能百密一疏,使极少数不宜公开的信息有被泄露的风险。但是,在AI时代,不开放的负面影响远大于开放。我们不可因噎废食,而应进一步健全制度、严格管理,加快有序开放,使开放档案的风险降至最小、效益增至最大,为维护国家意识形态安全贡献档案力量。
(作者,徐拥军 系中国人民大学国家发展与战略研究院研究员;信息资源管理学院教授;陈晶晶 系中国人民大学信息资源管理学院博士后)