点击右上角微信好友
朋友圈
请使用浏览器分享功能进行分享
9月28日,人工智能高质量数据集生态发展大会在重庆市永川区举行。会上,重庆市大数据应用发展管理局与永川区政府签署协议,共同建设“重庆市数据集建设应用基地”。这也是全市首个数据集建设应用基地。
此次落户永川的“重庆市数据集建设应用基地”,将聚焦建强公共数据标注平台,全面提升数据集建设能力。市大数据局将支持永川属地企业参与重庆城市可信数据空间的数据集建设,在资源对接、实施交付、标注工具能力提升等方面提供支持;将支持永川建立适配超大城市现代化治理需求的数据标注治理流程,提升数据标注效率与可用性,有效支撑全市AI能力体系和业务场景。
会上,西部数据标注研究院、西部数据集生产基地也同步揭牌成立。
西部数据标注研究院是由中国信息协会与永川区政府共同发起成立的数字技术共享平台、数字产业孵化平台及数字生态构建平台。研究院将聚焦人工智能与数字重庆建设双向赋能,围绕人工智能、高质量数据集、数据标注等领域,开展新兴技术科研创新、顶层设计、课题研究、标准制定、质量评测等业务,并组建专家智库,培养复合型数据标注人才。
西部数据集生产基地由中国信息协会与永川区政府共建。协会将依托会员企业资源,推动更多数据集生产类企业落地永川,双方合力促成数据要素在永川汇集,打造基地以带动西部、辐射全国数据产业。
永川作为重庆市数字经济发展的重要承载区,近年来依托重庆云谷·永川大数据产业园,积极承接国家“数据要素×”行动计划,将数据标注产业作为推动数字经济和实体经济深度融合的重要抓手,至今已集聚数据标注类企业18家,建成标注坐席1.2万席,2024年相关业务营收达13.76亿元,占到了全市总量的65%,并成为西南地区最大的数据标注产业基地。(记者 周雨)
新闻多一点>>>
数据集和数据标注是什么
二者是人工智能和机器学习领域最核心最基本的概念。
数据标注是一个过程,指的是对原始数据(如图片、文本、音频、视频)进行加工,为其添加有意义的标签或注释,以告诉机器学习模型这些数据“是什么”或“包含了什么”。核心目的是为模型提供“标准答案”或“学习资料”,让它能够学会识别和理解数据中的特定模式。
数据集是一个集合,指的是为特定目的而收集、整理在一起的数据的总体。它是机器学习模型的“粮食”和“燃料”。数据标注和数据集的关系是过程与结果、部分与整体的关系,二者密不可分。简而言之,通过“数据标注”这个过程,将“原始数据”加工成有价值的“数据集”,从而喂养和训练出智能的AI模型。没有标注,数据就只是无意义的比特流;没有数据,标注也就失去了对象。二者共同构成了AI发展的基石。(记者周雨整理)