DeepSeek新模型 藉視覺方式高效壓縮媒介
中國AI大語言模型DeepSeek再度開源新模型。該新模型名為DeepSeek-OCR,還是一款OCR(光學字符識別)模型,參數量為3B。
DeepSeek表示,DeepSeek-OCR模型是通過光學二維映射(將文本內容壓縮到視覺像素中)來高效壓縮長文本上下文。
DeepSeek探索的方法概括起來就是,利用視覺模態作為文本資訊的高效壓縮媒介。
此外,DeepSeek-OCR還具備一定程度的通用圖像理解能力。這也意味DeepSeek-OCR存在廣泛應用潛力,在金融領域,它可以將財報瞬間轉為結構化數據;在醫療行業,能快速數字化歷史病歷檔案;對出版機構而言,古籍數字化效率將提升數十倍。更值得關注的是,該模型展現出的視覺記憶特性,為突破大語言模型的上下文長度限制提供了全新思路。