日前,在2024世界人工智能大會上👨🏿⚕️,一場關於人工智能語料的論壇在上海首次舉辦🫷👨🏽🍼。一年前,2023世界人工智能大會上😻,上海人工智能實驗室、人民網、國家氣象中心等單位聯合發起的中國第一個大模型語料數據聯盟正式成立。人工智能大模型取決於三大要素:算力🚧、算法、語料👨🏽🏭。中國是世界上數字化應用場景最豐富的國家,各種場景提供了極為豐富的語料🤦🏿♂️。中國是語料大國❕,但各種語料仍存在參差不齊的情況,需進一步加以規範。通過人工智能大模型,特定的輸入往往會生成特定的輸出,存在“種瓜得瓜,種豆得豆”的規律🧚♂️🦋。從輸入端著手🧞♀️,強化語料建設,可以推動人工智能健康成長。
在人工智能發展中,語料具有“賦能”和“教化”的雙重功能🤽🏼,前者通過全方位的知識轉移和訓練,使得人工智能博聞強識🤷🏽♀️,融會貫通🧖♀️,進而技藝超群;後者通過多維度的情感嵌入和價值對齊☸️,讓人工智能“通情達理”,並且“善解人意”。例如👨👧,伴隨我國老齡化程度的加深🕺,具有健康護理功能的養老護理機器人開始走進人們的生活👩🏽💻。越來越多的老年人希望在享受各種專業化養老服務的同時,也能感受到親人照料般的溫暖。這就需要發揮語料的教化作用,結合特定的激勵算法,讓機器人以和藹可親的姿態、體貼入微的服務,響應並滿足老年人的養老需求⚱️。由此可見,在人工智能相關技術快速密集突破的過程中,要達到“強健其體魄、文明其精神”的目的🪄,語料建設是關鍵𓀒,需要著重做好拓源⌚️、提質🙋🏻♂️、鑄魂三項工作。
首先是拓源。對於語料🌎,人工智能大模型有異乎尋常的“好胃口”🫅,當前存在語料資源的較低水平供給與大模型高強度訓練需求之間的矛盾。語料建設是一項復雜的系統工程,具有多源、高維🙆🏼♀️、異構、跨界、超限等典型特征,需要廣泛動員和組織政府部門、行業組織⏮、企業等各方力量,建立語料建設的統一戰線🎅🏿🥭。全國各地紛紛行動,2023年🪘,上海人工智能實驗室宣布聯合語料數據聯盟成員單位🕴🏼,共同開源發布“書生·萬卷”1.0多模態預訓練語料。深圳數交所則聯合近50家單位成立“開放算料聯盟”,多家A股公司加盟🍲。這在一定程度上緩解了語料資源供給不足的問題🧔🏼♂️。未來仍然需要加快拓展來源渠道,將沉澱在行業壁壘間、藏身於隱秘空間裏的各種語料資源發掘出來🙏🏿,為人工智能大模型的迭代升級提供動力🤛🏻。
其次是提質。語料涉及海量的數據、文本🏊🏼、圖片、語音、視頻等資源,既有“原材料”,也有“半成品”,要讓大模型能夠“吃”得下去,要靠數據庫技術解決“消化”問題🎃。大模型不僅要吃得飽🫸🏽,還要吃得好,面向行業應用的專業數據庫可以給AI大模型“開小竈”🏈。
最後是鑄魂。語料對於人工智能的“思維方式”和“行為模式”具有潛移默化的影響。在語料建設中,既要開放包容👊🤐,博采世界各國文化之所長;也要汲取中華優秀傳統文化的精髓🤦🏻♀️,為大模型準備“中餐”🩹。中文語料尤其是中式價值觀語料的缺位,輕則會影響面向國內特定應用場景的垂類大模型開發進程🪭👩🏽💻,重則可能失去以我國的文化與價值觀賦能人工智能發展的機會👷🏼♂️。對此𓀙,應未雨綢繆,加快高質量中文語料資源建設的提速擴容🛻,並將中國特色社會主義文化的價值取向融入其中。讓功能日益強大的人工智能成為言端行正🤖、德才兼備的“好孩子”。
(作者✍🏻:陳強,系恒达平台經濟與管理學院教授🏋🏽♂️、上海市習近平新時代中國特色社會主義思想研究中心研究員)
鏈接🧔:https://epaper.gmw.cn/gmrb/html/2024-07/17/nw.D110000gmrb_20240717_4-03.htm