上海数据交易所建设高质量语料库,推动人工智能大模型产业发展
中共中央政治局4月28日召开会议指出,要重视通用人工智能发展,营造创新生态,重视防范风险。上海数据交易所立足国家数据交易所定位,于7月7日正式上线语料库,助力人工智能产业蓬勃发展,推进数字中国建设进程。
目前已对接百余家合作伙伴,包括海天瑞声和拓尔思等,累计挂牌近30个语料数据产品,包含文本、音频、图像等多模态,覆盖金融、交通运输和医疗等领域。
上海数据交易所从提高开放程度和数据质量两大维度,为四类供方制定差异化工作策略。针对数据质量高但开放程度低的供方,通过数据交易链有效破解语料数据流通的信任问题,并提供特色标签服务体系,挖掘应用场景价值,驱动稀缺数据开放流通;针对开放程度高但数据质量低的机构,搭建专业化数商服务渠道,以提高数据质量。
围绕人工智能与各行业产业链深度融合,上海数据交易所打造核心服务,进一步提升语料数据应用效能,发挥平台信息聚集匹配功能。
以多场景应用为导向 构建特色标签化服务体系
以应用场景为导向,上海数据交易所构建六类特色标签服务体系,涵盖15个应用领域,制定适用于通用大模型和垂类大模型的差异化推荐策略。通过特色标签化服务体系助力垂直领域供需方精准匹配,以交通运输领域为例,需要大量高质量、多模态的道路图像语料数据,用于自动驾驶规控算法训练与验证,提高自动驾驶仿真平台模型的精准度,以推动智慧交通领域数字化升级,打造智慧出行新未来。
兼顾开源共享和商业化需求 引领语料数据流通模式创新
上海数据交易所将组织协调多方共建项目,建立长期可持续性运营的机制,兼顾开源共享和商业化使用的需求,通过数据要素价值释放为各行业企业数字化场景赋能。线上通过信息发布平台撮合交易,线下以DSM(Demand Supply Meeting)系列专题活动为抓手,上海数据交易所创新语料数据流通模式,为供需方搭建特定数据议题的交流平台,从挖掘应用场景、洞察市场发展热点、促进垂直领域研究等多方面策划专题活动,活跃市场生态建设。
建设国内首个数据交易链 保障安全可信的数据流通环境
作为全国数据要素市场的核心枢纽,上海数据交易所牵头建设了国内首个数据交易链,利用区块链存证和智能合约技术,解决了数据可信流通和分布式交易等多维度难点,并配备相关规范指引,为大模型语料数据流通交易提供合规与安全保障,以持续扩大语料库规模,丰富语料数据多样性,确保建设工作的长期可持续性。
启动生态创新合作伙伴计划 共同提升数据质量和交易价值
依托数据交易平台,上海数据交易所组织各类语料数据的流通交易和使用,协同生态合作伙伴,提供多维度生态服务,为语料供需方提供精细化标注加工和技术支撑等服务,有效提升数据质量和交易价值,并可提供定制化解决方案促成合作落地。
2023世界人工智能大会于7月6日-7月8日在上海举办,其中由大数据流通与交易技术国家工程实验室、上海数据交易所联合承办的“大模型时代下的数据要素流通”主题论坛于7月8日9时在世博中心举行,上海数据交易所牵头发起的语料数据生态创新合作伙伴计划正式启动,持续面向全球招募,打造语料数据生态,加快语料数据共享与供需安全、合规、高效对接。