香港新聞網10月21日電 近日,AI領域再次掀起波瀾。據報道,中國AI公司DeepSeek開源了一款僅30億參數的新型OCR模型“DeepSeek-OCR”,以其獨特的“光學壓縮”思路迅速引發全球技術圈的關注與熱議。

儘管模型規模不大,但其通過視覺模態壓縮文本信息的設計理念,被業內視為一次突破性的效率革命。

DeepSeek。香港中通社資料圖

用視覺壓縮文本:突破算力瓶頸的新路徑

當前,大型語言模型在處理長文本時普遍面臨計算複雜度呈平方級增長的難題。DeepSeek團隊獨辟蹊徑,提出“將文本渲染為圖像”的解決方案,利用視覺模態實現信息的高效壓縮。

研究表明,這一方法可將文本Token數量壓縮至原來的十分之一,而OCR準確率仍保持在97%以上。即使壓縮率提升至20倍,模型仍能維持60%的可用準確率。

這一設計不僅顯著降低了計算開銷,更在實際測試中展現出卓越性能。

在OmniDocBench基準測試中,DeepSeek-OCR僅用100個視覺Token就超越了需256個Token的GOT-OCR2.0模型;使用不到800個視覺Token時,其表現更大幅領先平均每頁需近6000個Token的MinerU2.0。

架構創新:編碼器與MoE解碼器協同發力

DeepSeek-OCR的核心由兩大組件構成:負責特征提取與壓縮的DeepEncoder編碼器,以及基於混合專家架構的DeepSeek3B-MoE解碼器。

編碼器創新性地串聯了SAM-base與CLIP-large模型,結合16倍卷積壓縮器,在保證高分辨率處理能力的同時,將視覺Token數量大幅削減。

解碼器則通過激活少量專家參數,在保持30億參數模型表達能力的基礎上,實現僅5.7億活躍參數的高效推理。

矽谷反響熱烈:Karpathy點贊,馬斯克暢想光子未來

研究公佈後,外界紛紛盛讚。據報道,在代碼技術平台GitHub斬獲了3.3K star,在共享技術平台HuggingFace上登錄熱榜第二,在社媒X上也掀起了熱議,好評如潮。

這一突破性成果也迅速獲得了矽谷技術領袖的高度評價。

前特斯拉AI總監、OpenAI聯合創始人安德烈·卡帕西在社交媒體上直言“非常喜歡這項研究”,并指出其核心價值在於提出了“像素是否比文本更適合作為LLM輸入”的關鍵命題。

他認為,視覺輸入具有更高的信息密度、更強的通用性,且能自然實現雙向注意力機制,有望徹底淘汰傳統Tokenizer的種種弊端。

與此同時,特斯拉CEO埃隆·馬斯克在討論中進一步延伸了這一技術路線的未來圖景。他表示:“長遠來看,AI模型超過99%的輸入和輸出都將是光子。”這一判斷從宇宙光子數量的物理優勢出發,揭示了視覺模態在規模化應用中的巨大潛力。

特斯拉CEO埃隆·馬斯克。新華社資料圖

實際應用與前瞻探索

DeepSeek-OCR不僅支持多分辨率輸入與動態壓縮模式,還具備深度解析能力,可對金融圖表、化學結構式、幾何圖形等複雜內容進行結構化提取。

在訓練數據方面,DeepSeek團隊收集了涵蓋100種語言的3000萬頁PDF文檔,并通過“模型飛輪”機制持續提升小語種識別效果。

更引人注目的是,團隊將“光學壓縮”與人類遺忘機制相類比,提出了漸進式壓縮遠期上下文的設想。

通過逐步降低歷史對話的圖像分辨率,模擬人類記憶的自然衰退,為超長上下文處理提供了新的理論方向。(完)