2025世界智能产业博览会(简称“智博会”)于9月5日至8日在重庆悦来国际会议中心盛大举行。期间,一款名为“重庆AI麻辣面”的卡通形象智能小助手通过视频生动讲解了高质量数据集工作指南,让观众更加深刻认识高质量数据集概念及其工作原理和价值。
2025可信数据空间高质量数据集生态大会现场(主办方供图)
何为高质量数据集?它是经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,且经应用场景验证能有效提升模型性能的数据集合。如何训练出更“聪明”、更“给力”的人工智能模型,成为各行各业的核心挑战。模型的性能上限,从根本上取决于高质量数据集的“喂养”,然而,“高质量数据集”这个概念对于许多人而言,依然抽象、技术化,难以感知。
而“重庆AI麻辣面”的诞生,恰好以极强的网感与地域烟火气,破解了这场“技术沟通困境”。它巧妙嫁接重庆人最熟悉的“麻辣面”饮食文化与AI数据技术精髓,为理解高质量数据集建设和价值,打造了一个“色香味俱全”的具象化载体。
“面”比喻数据集。一碗正宗的重庆小面,劲道的面条是“骨架基底”,缺了它,再香的调料也撑不起“一碗面”;在建设高质量数据集过程中,数据集就是“骨架”,而非锦上添花的“配菜”。无论是自动驾驶的路况判断,还是智慧金融的风险识别,没有数据集的支撑,再先进的算法也会沦为“无源之水无本之木”,它是保障高质量数据集质量可控、灵活适配场景、价值看得见的钢筋铁骨。
“麻”比喻数据采集的高效化。正如重庆小面里,一把花椒可以瞬间击穿味蕾,带来“麻利”的爽感,在建设高质量数据集过程中,明确了数据采集类型、规模、标准、方式以及采集规范等,也能在短时间内让数据“入味”,让原本无序的采集像舌尖触电般迅速完成。花椒的麻感得益于标准化工艺锁鲜,数据的高效采集则依托明确的采集规范,同样把“刺激”与“速度”打包成一键直达的体验。
“辣”比喻数据治理的高质量。在重庆小面里的秘制辣椒油是灵魂,辣度越足,滚过舌尖就能瞬间唤醒味蕾,在建设高质量数据集过程中,数据质量的高低是关键。只有通过精准的标注、精细的清理、严格的管控等方式,让数据集成为模型看明白、学得懂、能有效提升模型性能的高质量数据集,才能推动识别准确率瞬间飙升,在核心业务场景中表现得格外“泼辣”,直接把性能瓶颈“辣”到破防。
这碗“AI麻辣面”,早已不止是一个科普IP,更成为赋能千行百业的“数据赋能工具”。在空天信息领域,航天天目(重庆)卫星科技有限公司以太阳同步轨道子星座(24颗卫星)和低倾角轨道子星座一阶段(12颗)共同组成的天目一号掩星探测星座为数据采集平台,强化地面系统对天目一号掩星探测星座探测数据的全流程处理能力,依托数据采集和处理能力,构建覆盖多圈层、贯穿多领域的一体化空天信息服务数据资源体系,为低空经济、智慧海洋、智慧交通等行业应用提供坚实数据支撑;在疾病防控领域,重庆市疾病预防控制中心建成“国家前置软件+重庆医防协同”多病共防智能监测预警的跨部门数据体系,大幅提升疾病风险感知能力,并通过知识增强、关系抽取、数据组装等“数据食材”加工环节,有效扩大数据规模,提高数据“辣度”,解决垂类高质量数据短缺问题;在政务领域,数字重庆大数据应用发展有限公司以全市地方性法律法规、规章制度等政策文件为“主食”,构建政务基础语料库高质量数据集,为全市“1361”人工智能应用提供统一的语义基准。
“我们打造‘重庆AI麻辣面’,就是想让大家明白:打造高质量数据集,其实道理和煮一碗地道的重庆小面一样——得先有好“面”(全面的数据集),再添“麻”味(数据采集的高效化),最后浇上“辣”油(数据治理的高质量),才能在味蕾与性能上同时爆出那股子直击灵魂的“泼辣”劲。”重庆大数据局相关负责人介绍,“底料(数据标注)的精准度、火候(数据清洗)的把控度、配方(需求分析)的适配度,每一个环节都不能含糊——少了一勺好底料,面就没了灵魂;数据标注错漏,模型就会‘学偏’;火候不到位,数据有杂质,模型就会‘犯糊涂’。”而“重庆AI麻辣面”的核心使命,正是为每一位AI开发者、每一家企业,提供一碗“够麻、够辣、够劲道”的数据主食,让AI模型从“能跑”迈向“跑稳、跑快、跑准”。
据悉,重庆坚持以应用为导向,助力构建“33618”现代制造业集群体系和“416”科技创新布局,打造一批产业亟需、规模庞大、模态丰富、质量过硬、行业特色的高质量数据集。到2027年,高水平建设400个高质量数据集。在智博会上,首批发布85个高质量数据集建设清单。
(文/李林 张明刚)