聚优号

以数智之笔绘中文发展新卷

时间:2025-04-09 06:53:00

来源:人民日报海外版

今年2月,游客在河南安阳市中国文字博物馆参观。新华社发 麻翛然摄

2024年12月,在埃塞俄比亚亚的斯亚贝巴大学,孔子学院老师宋瑞荣(右)在教室与学生互动。新华社记者 刘方强摄

近日,教育部、国家语委、中央网信办共同印发《关于加强数字中文建设 推进语言文字信息化发展的意见》(简称《意见》),对加快推进以信息化促进语言文字事业高质量发展,以数字化赋能语言文字更好服务现代化建设等作出了全面部署。

当敦煌藏经洞的千年文书在数字世界中苏醒,甲骨文的刻痕以数据跃动永驻云端……数字中文,正以代码为笔、算法为墨,在虚实交织中联结过去与未来。

数智赋能语言文字高质量发展

语言文字“日学而不察、日用而不觉”,广泛存在于社会生产各个方面。

如今,中国已建成世界最大的规模语言资源库和中国语言资源知识图谱,集成120多种语言和方言资源。今年,全国语言文字使用情况调查将首次实施,打造集数据采集、传输、存储、加工一体的集成化调查平台,为深化教育综合改革和综合国力分析提供大数据支撑。

为加快推进语言文字信息化,《意见》提出,将数字中文建设作为服务数字中国建设的重要任务和全面推进语言文字信息化发展的突出重点,着力推进中文数字化与数据中文化,完善新型中文服务体系构建与语言文字治理体系。

教育部语言文字信息管理司司长刘培俊介绍,中国已发布100多项国家通用语言文字和民族语言文字信息化规范标准,为自然语言处理技术在人工智能、数字产品和信息产业领域的应用创新奠定规范基础。

语言文字智慧化学习的广泛开展,有力服务了教育改革创新。比如,高水平开展普通话水平测试,全面实现从人工到智能的普通话测试方式转变,制发电子证书9000多万份。在广东,已建成全国首个普通话水平测试智慧考场,考场首创“随到随考”测试模式,大幅提升了普通话测试效率。

语言文明智能化传播联通世界,也有力服务了国际交流互鉴。通过数字赋能,书写在古籍里的文字实现“活化”,建成中华思想文化术语数据库,面向国际传播1200多条反映中华民族话语体系中最核心最本质的思想文化术语,并与40多个国家和地区开展多语种数字版权合作。

“中国已建成集成化、智能化、国际化的全球中文学习平台,用户超1600万人,覆盖190多个国家和地区,深度合作建立联盟,中文学习联盟云服务平台提供3万门在线课程,与中外1600多家机构合作,推动实现中文人人、时时、处处可学可用、易学易用。”刘培俊说。

建设新型国家语料库

今年,教育部启动布局了新型国家语料库的建设工作。《意见》明确,到2027年,初步建成国家关键语料库和国家战略语言资源信息库。

新型国家语料库为什么如此重要?又将在语言文字信息化工作中发挥何种作用?

“当前以深度求索(DeepSeek)等为代表的人工智能技术创新不断取得突破性进展,在这个大背景下,国家提出这样一个战略部署,建设新型国家语料库,凸显了其重要性、必要性和紧要性。”教育部语言文字应用管理司副司长王晖如是说。

现阶段,语言教育教学和研究领域存在多个语料库,但很多语料库还处于单一文本模式和领域应用阶段。这些语料库在建设的理念、技术和方法、规模,以及数据多样性、时效性尤其是与人工智能相结合的大规模应用方面尚存在不足,难以满足多元化、动态化尤其是智能化的语言数据需求。

找准这一难点,王晖介绍,建设新型国家语料库立足人工智能时代大背景,突破传统语料库单一文本模式和领域应用壁垒,以大模型训练及性能评测、智能计算为核心,以新质态、多模态、多语言、大规模、全域性为突出特性,为通用领域和细分领域多场景应用及创新发展提供规范、可信、高质量的语言文化语料资源。

“主要包括两方面:一是规范引领,主要是加强制度的供给,研制语料库建设规范,突出价值导向、应用导向、创新导向,统筹质量和安全,为语料库建设提供基础原则和方法指引。二是示范引导,成熟先上,开发建设‘中华文脉新型语料库’‘中华大阅读体系语料库’,以这两个示范库建设整体打造出标杆,‘中华文脉新型语料库’也可以简单理解瞄准的是智慧教师,‘中华大阅读体系语料库’瞄准的是智慧学伴。”王晖说。

数字中文推动产业升级

20世纪80年代,北京大学王选团队发明激光照排技术,并结合汉字编码标准,突破了中文数字化的空间限制,让承载中华文化的中文在全球互联网空间获得新生。那是一场从“铅与火”到“光与电”的变革,而如今,大语言模型技术对大规模高质量语料提出前所未有的需求,赋予了数据中文化新的历史内涵和使命任务。

历史阶段不同,但机遇和挑战相似。

北京大学王选计算机研究所所长汤帜认为,当前,中文信息处理技术的发展从以往解决汉字输入输出的基础性问题,进阶到当先释放语言文字数据要素价值的全方位突破。

《意见》提出,实施数字中文推动产业升级行动。支持语言文字信息技术新产品、新职业和新业态发展,鼓励传统语言产业数字化转型升级,培育基于数字中文的新型语言产业。推动语言资源、语言翻译、智能机器人、中文内容服务等软硬件产品研发应用,支持围绕语音、语料、语言应用生态形成产业聚集,鼓励创建语言产业应用示范品牌。

“新形势下,语言文字将从实现‘静态符号’向‘动态数字资产’,从‘信息载体’向‘生产要素’的转型,要重点推动语料库、数据标注与评价等标准的研制,支持文本生成与理解、语言翻译、情感分析等各种任务。”汤帜表示,人工智能发展迅速,语言文字信息处理技术创新应用正经历从“GB2312字符集”到“万亿参数大语言模型”的范式变革,语言文字未来将实现与信息技术的深度融合,形成“技术突破—场景落地—生态繁荣”的良性循环。(本报记者 孙亚慧)

《人民日报海外版》(2025年04月09日第10版)

相关推荐
重庆国家应用数学中心大楼正式启用 院士齐聚共谋学科发展

重庆国家应用数学中心大楼正式启用 院士齐聚共谋学科发展

第1眼TV-华龙网讯(记者 秦思思)6月7日,重庆国家应用数学中心大楼启用仪式在重庆师范大学举行。中国科学院院士马志明、袁亚湘、张平文及学界专家、企业代表共同见证这一重要时刻,标志着该国家级平台拥有新载体。活动现场。受访单位供图值得一提的是,启用仪式后,应用数学前沿论坛暨数学学科建设研讨会正式开幕。

2025-06-08 10:05:00

孙远富当选中国田径协会主席

孙远富当选中国田径协会主席

​​6月5日,中国田径协会第十届执委会八次会议在京召开,田径中心中国田径协会联合党委书记、协会副主席、执委等28人参会,联合纪委书记、部分部门负责人列席会议。会议审议通过了《中国田径协会会员注册管理办法》、单位会员入会议案、中国田径协会日常办事机构设置方案等事宜。会议表决通过了协会第十届负责人、法定

2025-06-07 16:35:00

“跨省异地”就医如何直接报销?官方教程手把手教你线上操作

“跨省异地”就医如何直接报销?官方教程手把手教你线上操作

2022年6月30日,国家医保局会同财政部印发《关于进一步做好基本医疗保险跨省异地就医直接结算工作的通知》(医保发〔2022〕22号,以下简称《通知》)。《通知》明确,跨省异地长期居住或跨省临时外出就医的参保人员,办理异地就医备案后,可以享受跨省异地就医直接结算服务。为了给参保人提供更为便捷的服务,

2025-06-07 12:40:00

中国女性万人生殖道微生态研究成果发表

中国女性万人生殖道微生态研究成果发表

【来源:中国消费者报•中国消费网】中国消费者报济南讯(记者孟刚)近日,山东大学妇儿与生殖健康研究院正式宣布,其主导的中国女性万人生殖道微生态队列项目取得里程碑式成果,部分相关研究成果已在Nature旗下顶级期刊发表。据了解,这项由山东大学妇儿与生殖健康研究院牵头的科研项目,系统性地绘制了中国女性生殖

2025-06-07 06:48:00

美国零售商,吃下特朗普的“回旋镖”

美国零售商,吃下特朗普的“回旋镖”

文 | 品牌工厂BrandsFactory最近,沃尔玛与美国总统特朗普就“涨价宣言”而“打嘴仗”,揭开了美国零售巨头在特朗普关税大棒下的夹缝处境。5月15日,沃尔玛发布2025年一季度业绩报告:1656亿美元营收背后,净利润缩水12%。沃尔玛CEO董明伦(Doug McMillon)坐不住了,发表了

2025-06-06 16:26:00