蘋果與芬蘭阿爾托大學合作,推出 ILuvUI 視覺語言模型,旨在理解行動應用程式介面。核心在教導人工智慧(AI)模型如何像人類推理用戶介面,不僅需要視覺訊息,還包括語義理解。
ILuvUI論文指出,理解和自動化用戶介面操作是一項挑戰,因介面元素如列表項、複選框和文本框包含訊息層次遠超過互動性。雖然大型語言模型(LLMs)自然語言任務表現出色,但僅依賴文本描述理解用戶介面,卻忽略豐富視覺訊息。
多數視覺語言模型主要用自然圖像訓練,如狗貓或街道號誌,因此解釋結構化環境(如應用程式介面)時表現不佳。研究員強調,將視覺訊息與文本訊息融合理解用戶介面至關重要,因反映人類與世界互動的方式。為了克服挑戰,團隊微調開源視覺語言模型LLaVA,並調整訓練法以專注用戶介面。他們使用合成生成文本─圖像訓練,最終資料庫包括問答式互動、詳細螢幕描述、預測操作結果,甚至是多步驟計畫。
訓練後ILuvUI機器基準測試和人類偏好測試均超越原始LLaVA模型。更重要的是,ILuvUI不需要用戶指定介面的特定區域,能從簡單提示理解整個螢幕上下文,使其能執行視覺問答等應用。蘋果研究員表示,可能對無障礙設計和自動化用戶介面測試有重要意義。將來研究可能涉及更大圖像編碼器、更佳解析度處理,以及與現有用戶介面框架(如JSON)無縫協作的輸出格式。
蘋果也發表另一項研究,質疑大型語言模型推理力,指出AI「推理」主要依賴複雜模式匹配,而非真正認知推理。這些模型處理簡單問題時可能太複雜,更複雜問題就表現不佳。這觀點引發對AI本質的辯論,並更謹慎和明智部署技術。
(首圖來源:Flickr/MIKI Yoshihito CC BY 2.0)
文章看完覺得有幫助,何不給我們一個鼓勵
請我們喝杯咖啡您的咖啡贊助將是讓我們持續走下去的動力
總金額共新臺幣 0 元 《關於請喝咖啡的 Q & A》 取消 確認(责任编辑:株洲市)
3、核心指标与相关关系 前面说到数据分析的重要性,其实刚进公司时,我连PV、UV是什么都不知道,但现在我了解了运营工作相关的几个核心业绩指标:流量(PV、UV)、转化、留存、复购。...[详细]
6别让商业冲动牵制你 毋庸置疑,收购一家公司是一件振奋人心的事。...[详细]
问答平台就更不用说了,现在基本上只有专业的操作团队才能够留下吧。...[详细]
去年,互联网金融全面整顿时期,西藏旅游、银之杰、永大集团、熊猫金控等上市公司对互联网金融企业的收购完全终止,监管对互联网金融还是持谨慎态度。...[详细]
社交媒体 社交媒体网站,如Twitter,Instagram和Facebook变得越来越吸引流量,在每个页面审计中包含你的社交媒体引流统计是个不错的主意。...[详细]
1991年圣诞节前夕,张兰怀揣着打工挣来的2万美元和创业梦,乘上了回国的飞机。...[详细]
而《连线》杂志英国编辑也将小米首席执行官雷军的肖像放在封面上,并以大字标题写道:“效仿中国的时代来了!” 然而,小米的辉煌并没有持续太久。...[详细]
“然而niconico超会议也通过举办相扑比赛、将棋游戏,以及去年新推出的歌舞伎表演帮助网站吸引了那些更加年长的用户。...[详细]
大部分玩家都是整车厂旗下子公司或是传统租车行业划出一块业务来做分时租赁。...[详细]
最根本还是因为,新三板市场流动性匮乏,流动性匮乏又造成量价背离。...[详细]