綜合中媒及港媒報導,小米自研聲音理解大模型 MiDashengLM-7B 於 4 日正式發布並全量開源。據小米官方表示,MiDashengLM-7B 聲音理解性能在 22 個公開評測集上,刷新多模態大模型最佳成績(SOTA),單樣本推理的首 Token 延遲(TTFT)僅為業界先進模型的四分之一,同等顯存下的數據吞吐效率是業界先進模型的 20 倍以上。
小米指出,MiDashengLM-7B基於Xiaomi Dasheng做為音訊編碼器和Qwen2.5-Omni-7B Thinker做為自回歸解碼器,透過創新的通用音訊描述訓練策略,實現了對語音、環境聲音和音樂的統一理解。且不同於Qwen2.5-Omni等未公開訓練數據細節的模型,MiDashengLM完整公開了77個數據源的詳細配比,技術報告中詳細介紹了從音訊編碼器預訓練到指令微調的全流程。
做為小米「人車家全生態」戰略的關鍵技術,MiDashengLM透過統一理解語音、環境聲與音樂的跨領域能力,不僅能聽懂用戶周圍發生了什麼事,還能分析發現這些事情的隱藏含義,提高用戶場景理解的泛化性。
MiDashengLM以Xiaomi Dasheng音訊編碼器為核心元件,是Xiaomi Dasheng系列模型的重要升級。在目前版本的基礎上,小米已著手對MiDashengLM模型做計算效率的進一步升級,尋求終端設備上可離線部署,並完善基於用戶自然語言提示的聲音編輯等更全面的功能。
(本文由 MoneyDJ新聞 授權轉載;首圖來源:shutterstock)
文章看完覺得有幫助,何不給我們一個鼓勵
請我們喝杯咖啡您的咖啡贊助將是讓我們持續走下去的動力
總金額共新臺幣 0 元 《關於請喝咖啡的 Q & A》 取消 確認(责任编辑:尹姝贻)
[环球网报道]据美国《野兽日报》报道,波兰总统卡罗尔·纳夫罗茨基及其团队当地时间9月3日访问白宫,随行代表团被拍到带着特朗普周边产品回国,其中包括让美国再次伟大(MAGA)帽子和印有特朗普签名的白色手...[详细]
张学峰分析称,从红旗-29的外形尺寸来看,可在大气层外实施拦截,不同于在末段高层实施区域拦截,预计红旗-29可在弹道导弹的飞行中段实现拦截,其拦截对象主要是高价值、射程更远的弹道导弹。...[详细]
此次亮相的六型反导防空装备中,‘红旗-11‘红旗-20‘红旗-22A主要执行的是防空作战任务。...[详细]
军事专家张军社在接受《环球时报》记者采访时表示,此次亮相的无人艇体积较小,且采用隐身技术,可以极大地降低被对海警戒雷达发现的概率。...[详细]
最近,随着国际金价飙升,8月29日,离岸人民币汇率也直线拉升,最高涨至7.1155,为2024年11月6日以来首次突破7.12元,创9个多月以来新高。...[详细]
所以,与其追逐短期的风口,不如练好内功。...[详细]
云南省司法厅认为,杨某违反国家法律规定,故意犯罪受到刑事处罚,按照《律师法》相关规定,决定给予杨某吊销律师执业证书的行政处罚(该律师执业证书同时注销)。...[详细]
当前,民进党当局顽固坚持台独立场,煽动两岸对立对抗,加紧推动以武谋独倚外谋独。...[详细]
在美国前总统拜登执政期间的2024年底,ICE推动与ParagonSolutions公司签署合同,涉及金额约200万美元。...[详细]
新华社记者张宏祥摄这是天安门广场放飞气球和鸽子。...[详细]