本報記者 田鵬
7月8日,由上海數(shù)據(jù)交易所、大數(shù)據(jù)流通與交易技術國家工程實驗室承辦的“大模型時代下的數(shù)據(jù)要素流通”主題論壇在上海世博中心舉行。上海數(shù)交所總經(jīng)理湯奇峰作題為“大模型時代下的語料庫”的主旨演講,帶來關于國內語料庫建設挑戰(zhàn)的觀察,并從語料庫質量和開放程度兩個維度給出建設建議。
湯奇峰認為大模型時代下的語料庫建設存在語料庫供給不足、語料庫質量不高、語料庫多樣性匱乏、語料庫標準欠缺等問題。
“語料庫建設不是單一企業(yè)的責任,需要多方共同推進,如果每個企業(yè)都單獨建設維護語料庫,會拉低效率,也會增加企業(yè)成本,數(shù)交所希望通過自己的努力加強數(shù)據(jù)要素建設提升語料庫建設效率。”
當天活動上,上海數(shù)交所正式啟動語料數(shù)據(jù)生態(tài)創(chuàng)新合作伙伴計劃,攜手首批合作伙伴豐富語料庫,推動數(shù)據(jù)要素市場建設。
關于語料庫建設的挑戰(zhàn),湯奇峰認為主要集中于開放程度和數(shù)據(jù)質量兩方面:“能否有大模型企業(yè)所需的高質量語料?目標對象愿不愿意開放數(shù)據(jù)?”由此,湯奇峰指出可以根據(jù)開放程度強弱和數(shù)據(jù)質量高低將語料數(shù)據(jù)生態(tài)機構分出四類供方。
上海數(shù)據(jù)交易所語料庫為這四類供方制定差異化工作策略。湯奇峰建議可以從政府引導市場主導、豐富種類提高質量、統(tǒng)一標準規(guī)范建設、加強監(jiān)管保障安全、加強監(jiān)管保障安全四個方向建設大模型時代下的語料庫。
湯奇峰指出,針對數(shù)據(jù)質量高但開放程度低的供方,可以通過數(shù)據(jù)交易鏈有效破解語料數(shù)據(jù)流通的信任問題,“核心之一在于產(chǎn)權和參與大模型后的收益分配問題。”
此外,上海數(shù)據(jù)交易所語料庫還將提供特色標簽服務體系、挖掘應用場景價值、驅動稀缺數(shù)據(jù)開放流通以提高該類供方開放數(shù)據(jù)積極性。
針對開放程度高但數(shù)據(jù)質量低的機構,上海數(shù)交所語料庫則通過搭建專業(yè)化數(shù)商服務渠道提高數(shù)據(jù)質量。
湯奇峰介紹,上海數(shù)交所在建設語料庫時考慮的兩個維度與數(shù)交所對企業(yè)數(shù)據(jù)發(fā)展進程四個階段的觀察密切相關。對于這四個階段,湯奇峰解釋,第一個階段是企業(yè)數(shù)據(jù)自產(chǎn)自用階段。隨著企業(yè)數(shù)據(jù)的內部供給有限時,企業(yè)數(shù)據(jù)需求逐步轉向外部,進入到第二階段,在該階段,大平臺和大企業(yè)通過資本紐帶在體系內部形成數(shù)據(jù)流通。到了第三個階段,企業(yè)累積的數(shù)據(jù)將開放給整個行業(yè),產(chǎn)業(yè)內形成標準。第四個階段,數(shù)據(jù)使用在資產(chǎn)化過程中會產(chǎn)生新的更高階業(yè)態(tài)。
湯奇峰說:“語料庫采購已經(jīng)在不少大模型企業(yè)成本中占據(jù)重要比重,上海數(shù)交所希望以市場配置的方式組織數(shù)據(jù)要素推動語料庫建設。”
據(jù)悉,上海數(shù)交所官網(wǎng)已經(jīng)于7月7日正式上線語料庫,累計掛牌近30個語料數(shù)據(jù)產(chǎn)品,包含文本、音頻、圖像等多模態(tài),覆蓋金融、交通運輸和醫(yī)療等領域。
(編輯 李波)
| 11:56 | 央行等四部門:統(tǒng)籌建立常態(tài)化金融... |
| 11:33 | 京東集團:感謝巴黎警方對倉庫被盜... |
| 11:27 | 中鐵快運聯(lián)手菜鳥 今年春節(jié)讓旅客... |
| 11:22 | 五項汽車強制性國家標準征求意見 ... |
| 11:21 | 春節(jié)消費旺季將至 多地發(fā)文要求外... |
| 11:21 | 多家養(yǎng)殖公司1月份銷售價格回暖 |
| 11:20 | 冬奧賽場內外“商戰(zhàn)”暗涌 運動戶... |
| 11:20 | 機器人共享模式要火?擎天租:預計... |
| 11:20 | 產(chǎn)業(yè)鏈企業(yè)協(xié)同共振守護春節(jié)“肉盤... |
| 11:17 | 海航控股開啟新年高質量發(fā)展序幕 |
| 10:15 | 科大訊飛2025年經(jīng)營回款超270億元 |
| 09:59 | 天工國際攜手鮑迪克 粉末冶金產(chǎn)業(yè)... |
版權所有證券日報網(wǎng)
互聯(lián)網(wǎng)新聞信息服務許可證 10120180014增值電信業(yè)務經(jīng)營許可證B2-20181903
京公網(wǎng)安備 11010202007567號京ICP備17054264號
證券日報網(wǎng)所載文章、數(shù)據(jù)僅供參考,使用前務請仔細閱讀法律申明,風險自負。
證券日報社電話:010-83251700網(wǎng)站電話:010-83251800 網(wǎng)站傳真:010-83251801電子郵件:xmtzx@zqrb.net
掃一掃,即可下載
掃一掃,加關注
掃一掃,加關注