页面
配色
辅助线
重置
简体版|繁体版
支持IPv6
无障碍
当前位置:首页 > 动态信息 > 科技动态

AI体验官专访北京海天瑞声科技股份有限公司首席专家王淳——以东盟语料库为桥,铺就广西AI发展数据路

2025-08-06 09:50     来源:广西日报
分享 微信
头条
微博 空间 qq
【字体: 打印

AI体验官 行走中国现场 直达东盟脉动25

在人工智能技术飞速发展的今天,语料数据作为大模型训练的“基石”,其重要性愈发凸显。深耕人工智能语料生产领域20年的海天瑞声,近年来将目光投向广西,以东盟语料库建设为切入点,与当地展开深度合作。近日,北京海天瑞声科技股份有限公司首席专家王淳受邀前来南宁参加2025AI赋能千行百业超级联赛启动仪式,广西云-广西日报AI体验官与其交流时,得以窥见海天瑞声在东盟语料领域的布局、对广西AI产业的赋能,以及对行业未来的思考。

谈及在广西的核心业务,王淳介绍,海天瑞声目前正协助广西推进东盟语料库建设。这一工作并非一蹴而就,而是采取“一国一推进”的策略,从老挝语料起步,后续将逐步延伸至泰国、缅甸等东盟国家,涵盖文本、语音等多种类型的语料。这些语料就像“建筑的砖瓦”,为大模型训练提供最核心的原料。目前,项目已与广西本地企业中国东信达成合作,进入实质推进阶段。

广西在东盟语料库建设中,有着独特的优势。王淳解释,语料生产中有一种关键类型叫“平行语料”,即两种语言的对应文本或语音。这需要精准的翻译与转化能力。而广西作为汉语使用地区,同时与东盟地缘相近、文化交流频繁,拥有大量熟悉东盟语言与汉语的人才,为平行语料生产提供了坚实的人力支撑。此外,广西“北上广研发+广西集成+东盟应用”的战略布局,让本地拥有丰富的生产资源和合作伙伴,能快速响应语料生产需求,这也是海天瑞声选择在广西深耕的重要原因。

从行业视角看,东盟语料库建设对国内人工智能数据服务行业意义重大。王淳表示,近年来国内大量企业在训练文本、语音大模型时,对 “东盟语言+汉语”的平行语料需求激增。而从老挝、泰国等东盟国家采集、加工的语料,正是这些企业的 “刚需”,“无论是大模型的多语言交互功能,还是跨境场景的AI应用,都离不开这些语料的支撑。可以说,东盟语料库的建设不仅填补了相关语种数据的空白,更能推动国内AI企业在跨境服务、国际合作中形成技术优势。”

展望未来,海天瑞声在广西及东盟市场的核心规划,是把东盟语料库建完整、建完善。“团队将按节奏推进泰国等国家的语料库建设,联合中国东信等合作伙伴构建全面的东盟国家语料基地服务体系;同时持续深化与本地政府、企业、高校的合作,不仅做语料生产者,更做广西AI产业生态的参与者。”王淳说,这既是海天瑞声20年专注语料生产的初心,也是对广西“东盟应用集成”战略的积极呼应。(广西云-广西日报记者袁琳、黄乒宾、罗贝尔、邹财麟)

文件下载: