【資料圖】
3月7日,受證監(jiān)會科技監(jiān)管局局長姚前建議重點發(fā)展基于AIGC技術的合成數據產業(yè)消息影響,A股ChatGPT、AIGC概念午后拉升,截至發(fā)稿,中文在線(300364)(300364.SZ)漲超8%,神思電子(300479)(300479.SZ)、山水比德(300844.SZ)、視覺中國(000681)(000681.SZ)、宣亞國際(300612)(300612.SZ)、湯姆貓(300459.SZ)、浪潮信息(000977)(000977.SZ)等股拉升上漲。
證監(jiān)會科技監(jiān)管局局長姚前在《中國金融》雜志撰文稱,建議重點發(fā)展基于AIGC技術的合成數據產業(yè)。以更高效率、更低成本、更高質量為數據要素市場“增量擴容”,助力打造面向人工智能未來發(fā)展的數據優(yōu)勢。在強化數據要素優(yōu)質供給方面,應統(tǒng)籌兼顧自立自強和對外開放??煽紤]對Wikipedia、Reddit等特定數據源建立過濾后的境內鏡像站點,供國內數據處理者使用。
有研究預測,按照目前的發(fā)展速度,到2026年ChatGPT類大模型的訓練將耗盡互聯網上的可用文本數據,屆時將沒有新的訓練數據可供使用。因此,算力瓶頸之外,訓練數據將成為大模型產業(yè)化的最大掣肘之一。從更深層次考慮,大模型在訓練數據方面還存在各種治理問題,比如數據采集標注費時費力成本高、數據質量較難保障、數據多樣化不足難以覆蓋長尾和邊緣案例、特定數據在獲取與使用分享等方面存在隱私保護、數據偏見等問題。由此可見,人工智能產業(yè)的高質量發(fā)展離不開高質量的訓練數據,訓練數據的安全合規(guī)使用是大模型人工智能長期健康發(fā)展的基礎。