ng體育自媒體

-ng體育自媒體
首頁/網絡熱點/ 正文

數據是AIGC時代的“命門” 亞馬遜云科技全面布局企業數據服務

admin2024-05-07網絡熱點1 ℃0 評論

基礎模型搭建了之后,企業對生成式AI的建設關鍵來到數據層面。

近日,在亞馬遜云科技“無數據不模型——生成式AI時代的數據基座”媒體溝通會上,亞馬遜云科技大中華區產品部總經理陳曉建強調了數據在生成式AI時代的關鍵作用。他表示,數據在生成式AI時代處于核心地位,企業要想在生成式AI時代取得成功,必須從數據做起,利用自身的數據構建具有商業價值的AI應用。

陳曉建認為,企業需要構建以下3個方面的數據能力:模型微調和預訓練所需的數據處理能力、利用專有數據與模型快速結合以產生獨特價值的能力、有效處理新數據以助推生成式AI應用持續快速發展的能力,在被問及AIGC時代,亞馬遜云科技在人工智能推理成本和訓練成本上是否不像在原本的商業模式上有優勢時,亞馬遜云科技方面表示,還是看重客戶最終要的是什么。言下之意,亞馬遜云科技希望無論AIGC時代的服務成本怎么變動,自身的商業模式仍是以提供云基礎設施、模型層、應用層的工具與服務為主。

數據處理為何重要

大量的、高質量的數據對生成式AI的重要性已經不言而喻。

亞馬遜云科技方面此次表示,如果每個公司都能訪問相同的基礎模型,那么各個公司處于同一起跑線;而能夠利用自身的數據構建具有真正商業價值的生成式AI應用的公司,就贏在了起跑線上。

可以說,生成式AI基礎模型的局限性之一,在于無法及時擁有企業的專有數據。如果想讓模型服務于企業發展,那么通過技術手段加速數據與模型的結合,就成了企業數據基座的關鍵之一。

陳曉建進一步表示,成功的企業需要懂業務、懂用戶的生成式AI應用,而這些應用的構建需要從數據做起。他舉了位于美國的人工智能初創公司Perplexity的例子,其通過將傳統搜索、客戶數據與大型語言模型相結合,實現了快速增長。

也是因此,這家公司是人工智能領域的“紅人”。據悉,Perplexity正進行至少2.5億美元的新一輪融資,估值可能達到25億至30億美元。而這家公司在過去四個月中剛剛進行了兩筆大額融資,并且估值實現了飛躍:今年1月,Perplexity以5.4億美元的估值籌集了近7400萬美元;3月初,Perplexity以10億美元的估值融資約6300萬美元。

目前來說,用企業自身的數據去差異化生成式AI應用、通過數據定制基礎模型的方式主要分為三大類:檢索增強生成(RAG)、微調、持續預訓練。這三種方式在不同應用場景中的適用性和對數據的要求不同。

亞馬遜云科技的對策

亞馬遜云科技強調了自身在數據基座構建方面的三大核心能力:模型微調和預訓練所需的數據處理能力、利用專有數據與模型快速結合以產生獨特價值的能力,以及有效處理新數據以助推生成式AI應用持續快速發展的能力。

在數據存儲方面,亞馬遜云科技提供的Amazon S3服務可以滿足用戶在微調和預訓練基礎模型時對數據存儲的嚴格要求。同時,文件存儲服務的亞毫秒級延遲和高吞吐性能,將進一步加快模型優化速度。

數據清洗和治理方面,亞馬遜云科技通過 Amazon EMR Serverless和Amazon Glue等服務,幫助企業高效完成數據清理、去重和分詞等操作,使企業能夠專注于AI業務創新。

此外,亞馬遜云科技還著重強調了其在向量搜索和無服務器架構方面的創新。其中,檢索增強生成(RAG)技術被普遍認為是實現數據與模型結合的主要途徑之一。RAG通過將數據轉換為向量并存儲到向量數據庫中,從而將語義的關聯性轉化為向量間的數學距離問題,以實現內容的關聯性計算。

向量搜索與數據存儲的結合可以帶來多方面的好處,包括更高效和更精確的檢索能力、處理和索引大規模的數據等。目前來說,結合向量搜索和數據存儲的優勢,可以構建出強大的信息檢索系統,滿足現代應用對于速度、準確性、可靠性和智能化的需求。

但這同時也帶來一部分成本問題,比如需要更多的存儲空間。對此,陳曉建告訴《每日經濟新聞》記者,存儲上確實會讓成本有所增加,但能夠在整個數據內容檢索時取得更好的效果。

亞馬遜云科技同時表示,自身已在8種數據存儲中添加了向量搜索功能??蛻暨€可以通過Amazon Memory DB內存數據庫,降低生成式AI應用的模型調用成本和響應延遲。從亞馬遜云科技對生成式AI時代數據基座的看重,可以看到數據處理的重要性以及企業在這一領域面臨的挑戰與機遇。對于亞馬遜云科技來說,為AIGC時代的企業提供更全面的服務也是機遇與挑戰并存。

額 本文暫時沒人評論 來添加一個吧

發表評論

97超碰亚洲中文字幕一区-亚洲国产一区二区三区中文字幕-国产色在线?|?日韩-久久精品国产999久久久