聚优号

以数智之笔绘中文发展新卷

时间:2025-04-09 06:53:00

来源:人民日报海外版

今年2月,游客在河南安阳市中国文字博物馆参观。新华社发 麻翛然摄

2024年12月,在埃塞俄比亚亚的斯亚贝巴大学,孔子学院老师宋瑞荣(右)在教室与学生互动。新华社记者 刘方强摄

近日,教育部、国家语委、中央网信办共同印发《关于加强数字中文建设 推进语言文字信息化发展的意见》(简称《意见》),对加快推进以信息化促进语言文字事业高质量发展,以数字化赋能语言文字更好服务现代化建设等作出了全面部署。

当敦煌藏经洞的千年文书在数字世界中苏醒,甲骨文的刻痕以数据跃动永驻云端……数字中文,正以代码为笔、算法为墨,在虚实交织中联结过去与未来。

数智赋能语言文字高质量发展

语言文字“日学而不察、日用而不觉”,广泛存在于社会生产各个方面。

如今,中国已建成世界最大的规模语言资源库和中国语言资源知识图谱,集成120多种语言和方言资源。今年,全国语言文字使用情况调查将首次实施,打造集数据采集、传输、存储、加工一体的集成化调查平台,为深化教育综合改革和综合国力分析提供大数据支撑。

为加快推进语言文字信息化,《意见》提出,将数字中文建设作为服务数字中国建设的重要任务和全面推进语言文字信息化发展的突出重点,着力推进中文数字化与数据中文化,完善新型中文服务体系构建与语言文字治理体系。

教育部语言文字信息管理司司长刘培俊介绍,中国已发布100多项国家通用语言文字和民族语言文字信息化规范标准,为自然语言处理技术在人工智能、数字产品和信息产业领域的应用创新奠定规范基础。

语言文字智慧化学习的广泛开展,有力服务了教育改革创新。比如,高水平开展普通话水平测试,全面实现从人工到智能的普通话测试方式转变,制发电子证书9000多万份。在广东,已建成全国首个普通话水平测试智慧考场,考场首创“随到随考”测试模式,大幅提升了普通话测试效率。

语言文明智能化传播联通世界,也有力服务了国际交流互鉴。通过数字赋能,书写在古籍里的文字实现“活化”,建成中华思想文化术语数据库,面向国际传播1200多条反映中华民族话语体系中最核心最本质的思想文化术语,并与40多个国家和地区开展多语种数字版权合作。

“中国已建成集成化、智能化、国际化的全球中文学习平台,用户超1600万人,覆盖190多个国家和地区,深度合作建立联盟,中文学习联盟云服务平台提供3万门在线课程,与中外1600多家机构合作,推动实现中文人人、时时、处处可学可用、易学易用。”刘培俊说。

建设新型国家语料库

今年,教育部启动布局了新型国家语料库的建设工作。《意见》明确,到2027年,初步建成国家关键语料库和国家战略语言资源信息库。

新型国家语料库为什么如此重要?又将在语言文字信息化工作中发挥何种作用?

“当前以深度求索(DeepSeek)等为代表的人工智能技术创新不断取得突破性进展,在这个大背景下,国家提出这样一个战略部署,建设新型国家语料库,凸显了其重要性、必要性和紧要性。”教育部语言文字应用管理司副司长王晖如是说。

现阶段,语言教育教学和研究领域存在多个语料库,但很多语料库还处于单一文本模式和领域应用阶段。这些语料库在建设的理念、技术和方法、规模,以及数据多样性、时效性尤其是与人工智能相结合的大规模应用方面尚存在不足,难以满足多元化、动态化尤其是智能化的语言数据需求。

找准这一难点,王晖介绍,建设新型国家语料库立足人工智能时代大背景,突破传统语料库单一文本模式和领域应用壁垒,以大模型训练及性能评测、智能计算为核心,以新质态、多模态、多语言、大规模、全域性为突出特性,为通用领域和细分领域多场景应用及创新发展提供规范、可信、高质量的语言文化语料资源。

“主要包括两方面:一是规范引领,主要是加强制度的供给,研制语料库建设规范,突出价值导向、应用导向、创新导向,统筹质量和安全,为语料库建设提供基础原则和方法指引。二是示范引导,成熟先上,开发建设‘中华文脉新型语料库’‘中华大阅读体系语料库’,以这两个示范库建设整体打造出标杆,‘中华文脉新型语料库’也可以简单理解瞄准的是智慧教师,‘中华大阅读体系语料库’瞄准的是智慧学伴。”王晖说。

数字中文推动产业升级

20世纪80年代,北京大学王选团队发明激光照排技术,并结合汉字编码标准,突破了中文数字化的空间限制,让承载中华文化的中文在全球互联网空间获得新生。那是一场从“铅与火”到“光与电”的变革,而如今,大语言模型技术对大规模高质量语料提出前所未有的需求,赋予了数据中文化新的历史内涵和使命任务。

历史阶段不同,但机遇和挑战相似。

北京大学王选计算机研究所所长汤帜认为,当前,中文信息处理技术的发展从以往解决汉字输入输出的基础性问题,进阶到当先释放语言文字数据要素价值的全方位突破。

《意见》提出,实施数字中文推动产业升级行动。支持语言文字信息技术新产品、新职业和新业态发展,鼓励传统语言产业数字化转型升级,培育基于数字中文的新型语言产业。推动语言资源、语言翻译、智能机器人、中文内容服务等软硬件产品研发应用,支持围绕语音、语料、语言应用生态形成产业聚集,鼓励创建语言产业应用示范品牌。

“新形势下,语言文字将从实现‘静态符号’向‘动态数字资产’,从‘信息载体’向‘生产要素’的转型,要重点推动语料库、数据标注与评价等标准的研制,支持文本生成与理解、语言翻译、情感分析等各种任务。”汤帜表示,人工智能发展迅速,语言文字信息处理技术创新应用正经历从“GB2312字符集”到“万亿参数大语言模型”的范式变革,语言文字未来将实现与信息技术的深度融合,形成“技术突破—场景落地—生态繁荣”的良性循环。(本报记者 孙亚慧)

《人民日报海外版》(2025年04月09日第10版)

相关推荐
财政部公布2025年一般国债、超长期特别国债发行有关安排

财政部公布2025年一般国债、超长期特别国债发行有关安排

关于公布2025年一般国债、超长期特别国债发行有关安排的通知财办库〔2025〕74号记账式国债承销团成员、储蓄国债承销团成员,中央国债登记结算有限责任公司、中国证券登记结算有限责任公司、中国外汇交易中心、上海证券交易所、深圳证券交易所、北京证券交易所:现公布2025年一般国债、超长期特别国债发行有关

2025-04-16 17:38:00

受贿、故意泄露国家秘密,钟自然获刑

受贿、故意泄露国家秘密,钟自然获刑

奚丹霓、马姗/央视新闻2025年4月16日,浙江省宁波市中级人民法院一审公开宣判自然资源部原党组成员、中国地质调查局原党组书记、局长钟自然受贿、故意泄露国家秘密案,对被告人钟自然以受贿罪判处有期徒刑十二年,并处罚金人民币二百万元,以故意泄露国家秘密罪判处有期徒刑二年,决定执行有期徒刑十三年,并处罚金

2025-04-16 17:32:00

数字峰会现场体验区4月28日至5月4日亮相

数字峰会现场体验区4月28日至5月4日亮相

数字峰会现场体验区4月28日至5月4日亮相“五一”假期出行 不妨到这里逛逛记者15日获悉,第八届数字中国建设峰会现场体验区将于4月28日至5月4日亮相福州海峡国际会展中心,展览面积5.6万平方米。据悉,来自数字行业的龙头央企、世界500强、中国500强、行业百强等一批优质企业均已报名参展,届时将展示

2025-04-16 11:17:00

塞尔维亚籍大厨Bojan:唐家古镇如橄榄树般在不断生长|粤港澳媒体湾区行

塞尔维亚籍大厨Bojan:唐家古镇如橄榄树般在不断生长|粤港澳媒体湾区行

Transparency从珠海高新区繁华的闹市拐入石板铺就的蜿蜒山房路,便来到闻名遐迩的唐家古镇了,这里不仅有中西合璧的建筑美学,也有浓缩“半部近代史”的深厚人文底蕴,而在此间从事厨师工作的Bojan看来,唐家古镇犹如门口的橄榄树那般,正不断生长。Bojan来自塞尔维亚,今年三月他刚从北京来到了唐家

2025-04-16 11:05:00

400个岗位,福州举办数字经济专场招聘会

400个岗位,福州举办数字经济专场招聘会

N海都全媒体见习记者 何丹莹/文福州市总工会/图 13日,福州市总工会依托“工会稳岗就业创业服务超市”平台,成功举办数字经济专场招聘会。现场汇聚了30家数字企业,覆盖人工智能、工业互联网等领域,提供数字化运营、技术开发、跨境电商等近400个优质岗位,精准对接数字人才。招聘会现场此外,现场还通过“就业

2025-04-16 02:06:00