墨水文章网 手机版
您的位置: 首页 > 实时讯息 >

跻身算法团队西南第一梯队!贵州网络数据融合创新实验室破解AI“算法荒”

0次浏览     发布时间:2025-07-09 17:30:00    

日前,国际数据公司(IDC)最新报告显示,字节跳动旗下的豆包大模型在中国公有云大模型市场份额排名第一,占比高达46.4%,且多模态能力处于全球领先水平。

越来越“聪明”的豆包,是AI技术团队持续训练的结果。这其中,就有一支来自贵阳经开区的算法团队——贵州网络数据融合创新实验室团队,在豆包算法团队中实力排名前列。

去年以来,人工智能发展日新月异。就在算力和应用高歌猛进之际,一个关键环节的短板日益凸显:作为训练AI的关键,算法供应链支撑率不足10%,成为制约AI发展的桎梏。

面对巨大的市场缺口,贵阳经开区依托贵阳大数据安全靶场对数据的安全保障优势,引进贵州网络数据融合创新实验室,支持实验室打造AI算法供应链,破解行业“算法荒”困局。

破局:布局算法供应链赛道

据了解,人工智能发展包括三个层面:第一个层面是作为上游的算力层,包括各类算力中心;第二个层面是作为下游的应用层,比如各种大模型。还有一个中游的算法层容易被市场忽视。

“经过这两年的发展,应用层、算力层的规模和能力都跑到了算法前面。全国各地都在建算力中心,市场大模型层出不穷,但按照现有算力和应用的规模,算法供应链完成率却不到10%。”贵州网络数据融合创新实验室副主任容崧琼告诉记者。

AI行业面临全国性“算法荒”,但也潜藏着巨大的市场空间。基于对行业需求的观察,2023年开始,贵州省相关部门与广西科学院进行深入交流后得出一致结论,不管是数字经济发展情况,还是政策对大数据产业的支撑力度,贵州都更有优势。先机即商机,2024年8月,两地共同成立贵州网络数据融合创新实验室,并落地贵阳大数据安全产业示范区。

每个行业都有供应链,都需要原材料,人工智能行业也不例外。实验室落地贵阳经开区以来,紧紧聚焦“算法荒”行业短板,专注于做算法供应链,通过汇聚数据、治理数据,为AI发展提供所需数据“原材料”。

算法供应链涉及生产数据、加工数据等环节,且每个环节都有着极高的数据安全需求。落地贵阳大数据安全产业示范区,依托贵阳大数据安全靶场,很好地保障了实验室的数据安全。

“贵州孵化大模型虽没有发达地区有优势,但这边的数据供应链较强,依托这种优势,我们专注于做好算法供应链。”容崧琼说,算法供应链的前提是拥有海量数据支撑,这也恰恰是贵州发展大数据产业多年来形成的先发优势。

得益于这种优势,实验室成立后,与相关单位打通渠道,增强数据生产、治理能力,将数据资源优势转化为算法供应链支撑能力。目前,实验室每天生产数据达到300亿条。

强基:千人团队解题“喂”AI

海量数据本身并没有价值,如何“沙里淘金”,把无效数据变成有效资产?

容崧琼介绍,实验室犹如一个“原料生产工厂”,实验室组建的人才团队是“工人”。实验室按照订单需求,将相应数据给到“工人”,“工人”对数据进行“加工提纯”后,通过贵阳大数据交易所输送到全国各地。

随着AI的发展,大模型训练已经不再局限于语言训练,而是包括语言识别、图像识别等在内的多模态大模型训练。因此,数据虽是资产,但真正将数据变成资产的关键是人才。

2023年年初,大模型应用尚未全面推广时,实验室团队便预判人工智能的竞争本质是知识库的竞争,率先启动人才库储备。实验室成立后,迅速联合贵州大学建立贵州省数据标注实验室,构建专业人才梯队,以人才为核心支撑,将高校知识库转化为算法供应链的核心驱动力。

对人才的选拔,实验室设立严苛筛选机制,优中选优。学生要先报名,根据想做的算法训练参加培训和考试,考试合格后试标,试标成功率达到95%以上的,才能进入数据标注实验室参加数据治理。

高水平人才,解高难度题目。前两天,一个奥数题难住了解题人。两名学生紧密配合,一人负责解题,一人用程序把解题步骤写成机器语言。两人花了4小时,一共解了50多个步骤,才把题目解答出来。

目前,实验室已在贵州大学组建1000人的人才团队,其中50%以上是硕士研究生,有几十名博士研究生。今年,在贵州大学的人才团队计划扩展到1万人,硕士研究生要占到60%以上,博士研究生要占到300人至500人。数理化专业学生比例预计占90%以上。

此外,实验室还与兰州大学、安徽大学、桂林电子科技大学等高校完成签约,下步将继续加强与中山大学、中国科学技术大学等高校合作。每家合作高校计划组建2000人的团队。

为强化AI算法人才可持续供给,实验室构建了“实训-就业”的人才发展闭环。通过加强与企业合作,字节跳动等企业直接提供内推名额,团队优秀人才可获得入职大厂的机会。

开拓:数据交易规模达2000万元

在贵州大学数据标注实验室内,学生们正忙着解题,将解题步骤和答案转换成机器人能够识别的语言训练AI,让豆包变得更“聪明”。

“训练AI的核心逻辑很清晰:谁能给它灌注更多知识,谁就能让它更聪明。”容崧琼解释道,实验室通过与高校合作,对高校知识库深度挖掘,将数据供给师生进行“加工”后,再将“加工”好的数据“材料”喂给AI。

今年高考后,实验室做了一项测试:将高考语文全国一卷的作文试题,让目前全球最顶尖的几款人工智能大模型进行解题作答,发现豆包的解题精准度最高。

人工智能算法供应链市场空间巨大,单一大模型平台每年的算法训练费用可达数十亿元。实验室正在为豆包等大模型提供算法支撑,为豆包提供的算法支撑力位居全国前三。

截至目前,实验室在全国的服务单位达30余家,包括10余家上市公司,以及多家科研院所。治理好的数据主要通过两条通道输出:对于豆包等有自有平台的单位直接输送给对方;其余客户通过贵阳大数据交易所进行交易。

实验室已在贵阳大数据交易所发布十余款数据产品,数据集日均交易量达数千条至数万条。实验室成立不到一周年,已成功跻身西南地区算法供应链第一梯队,截至今年6月,数据交易规模达2000万元。

今年上半年,实验室完成产值近800万元。2025年,实验室将继续深化与重点高校合作,建强人才队伍,努力成为豆包大模型算法供应链团队的全国第一,致力于成为西南地区算法供应链龙头。

相关文章