当前位置：首页 >淑惠美娜 >小米發布並開源聲音理解大模型 MiDashengLM

小米發布並開源聲音理解大模型 MiDashengLM

2025-11-08 10:11:54 [黛丝瑞] 来源：傲世轻物网

綜合中媒及港媒報導，小米自研聲音理解大模型 MiDashengLM-7B 於 4 日正式發布並全量開源。據小米官方表示，MiDashengLM-7B 聲音理解性能在 22 個公開評測集上，刷新多模態大模型最佳成績（SOTA），單樣本推理的首 Token 延遲（TTFT）僅為業界先進模型的四分之一，同等顯存下的數據吞吐效率是業界先進模型的 20 倍以上。

小米指出，MiDashengLM-7B基於Xiaomi Dasheng做為音訊編碼器和Qwen2.5-Omni-7B Thinker做為自回歸解碼器，透過創新的通用音訊描述訓練策略，實現了對語音、環境聲音和音樂的統一理解。且不同於Qwen2.5-Omni等未公開訓練數據細節的模型，MiDashengLM完整公開了77個數據源的詳細配比，技術報告中詳細介紹了從音訊編碼器預訓練到指令微調的全流程。

做為小米「人車家全生態」戰略的關鍵技術，MiDashengLM透過統一理解語音、環境聲與音樂的跨領域能力，不僅能聽懂用戶周圍發生了什麼事，還能分析發現這些事情的隱藏含義，提高用戶場景理解的泛化性。

MiDashengLM以Xiaomi Dasheng音訊編碼器為核心元件，是Xiaomi Dasheng系列模型的重要升級。在目前版本的基礎上，小米已著手對MiDashengLM模型做計算效率的進一步升級，尋求終端設備上可離線部署，並完善基於用戶自然語言提示的聲音編輯等更全面的功能。

（本文由 MoneyDJ新聞授權轉載；首圖來源：shutterstock）

文章看完覺得有幫助，何不給我們一個鼓勵

請我們喝杯咖啡

想請我們喝幾杯咖啡？

每杯咖啡 65 元

x 1

x 3

x 5

x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0 元《關於請喝咖啡的 Q & A》

留給我們的話

取消確認

(责任编辑：林依晨)

相关内容

推荐文章

境外人员借慈善等名义窃密国家安全部披露案件细节
如下图所示:（我们截取某用户的网站首页）　　通过上图我们可以看：　　A广告位所在页面的点击量、转化量、转化明细等数据。...[详细]
西贝，整改得怎么样了？
　　发行前每股净资产：6.69元　　发行股数：不超过1,000万股，占发行后总股本的25%　　发行方式：全部采用网上发行　　承销方式：余额包销　　拟上市地：深交所　　——募投情...[详细]
夫妻合租生娃被赶出，媒体：合同至上还是生育友好？
我在新三板，你在A股，跨越几年时间跋山涉水终于见到你。...[详细]
乍得总统指示政府暂停向美国公民发放签证
”　　他仍然天不怕地不怕的样子说，欢迎媒体给做负面报道，帮忙吸引更多不怕被裁的人加入。...[详细]
夫妻合租生娃背后：年轻人“想生没地住”是个大问题
　　广泛配对广告系列，将所有关键字重新添加完全匹配的否定关键字，这会强制广泛匹配以识别新的/同义词/相关搜索组合。...[详细]
最新聊城市政协主席、副主席、秘书长名单曾晓黎当选主席
就凭这一点我们做出了投资决定，而今天依图已经是人工智能领域明星级别的独角兽企业。...[详细]
新华指数丨采购需求增加奉节脐橙价格延续高位偏强运行聚焦
因此，手机科技网站运用不同颜色搭配，不仅在视觉给人造成冲击力，还让网站更加具有科技感。...[详细]
厄瓜多尔抗议活动引发冲突 1人死亡17名军人失踪
　　为什么会有这样的结果呢？这就需要我们去分析产生的原因：　　1、综合对比四个广告位置的点击量，AD-1的最多，实现转化的明细数也是最多的，反应出这个位置可能是作为广告活动的主推位置，是网站页面比较显...[详细]
项昊宇：对石平的制裁也是对日本右翼的警告
　　(2)消费者消费心理不成熟　　消费者的购买动机有求实、求安、求廉、求同、求新、求美、求名七种动机。...[详细]
四川发布一批人事任免，涉厅级领导职务
　　　　H5响应式建站案例-星巴克　　一般建站系统与自助建站系统：　　说起建站系统，我想给大多数人最大的印象就是cms系统了。...[详细]

热点阅读

随机内容

友情链接

接受PR>=1、BR>=1，流量相当，内容相关类链接。