研究發現 嵌入大模型AI掃地機械人任務成功率僅40%
人工智能(AI)實驗室Andon Labs最近進行一項評估顯示,搭載大型語言模型(LLM)的掃地機械人,在簡單家務任務中表現糟糕,成功率遠低於人類。
據TechCrunch報道,實驗要求機械人在辦公室執行「把牛油遞給人」的多步驟指令,包括跨房間定位、尋找移動位置的人類、完成交付並返回充電。結果顯示,Gemini 2.5 Pro的成功率僅40%,Claude Opus 4.1為37%,GPT-5為30%,明顯落後於人類的表現。人類的準確率也並非100%,而是只有95%。
研究指出,LLM在空間推理、環境理解、長期任務規劃等方面仍存在明顯短板。研究人員得出結論,LLM尚未準備好成為機械人。
研究亦發現,娛樂以外也存在嚴重隱患,某些機械人可被誘導洩漏機密文件,部分機型無法辨識樓梯風險而從高處跌落,暴露當前LLM與機器結合的安全漏洞。
目前,還沒有公司嘗試將現成的LLM轉化為完整的機械人系統,LLM並非為成為機械人而訓練,但像Figure和谷歌DeepMind這樣的AI開發商,正在其機械人技術中使用LLM。




,泓滙財經資訊有限公司及財經智珠網有限公司提供。外滙及黃金報價由路透社提供。