www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當(dāng)前位置:首頁 > 廠商動(dòng)態(tài) > 米爾電子
[導(dǎo)讀]當(dāng) GPT-4o 用毫秒級(jí)響應(yīng)處理圖文混合指令、Gemini-1.5-Pro 以百萬 token 上下文 “消化” 長(zhǎng)文檔時(shí),行業(yè)的目光正從云端算力競(jìng)賽轉(zhuǎn)向一個(gè)更實(shí)際的命題:如何讓智能 “落地”?—— 擺脫網(wǎng)絡(luò)依賴、保護(hù)本地隱私、控制硬件成本,讓設(shè)備真正具備 “看見并對(duì)話” 的離線智能,成為邊緣 AI 突破的核心卡點(diǎn)。

當(dāng) GPT-4o 用毫秒級(jí)響應(yīng)處理圖文混合指令、Gemini-1.5-Pro 以百萬 token 上下文 “消化” 長(zhǎng)文檔時(shí),行業(yè)的目光正從云端算力競(jìng)賽轉(zhuǎn)向一個(gè)更實(shí)際的命題:如何讓智能 “落地”?—— 擺脫網(wǎng)絡(luò)依賴、保護(hù)本地隱私、控制硬件成本,讓設(shè)備真正具備 “看見并對(duì)話” 的離線智能,成為邊緣 AI 突破的核心卡點(diǎn)。

2024 年,隨著邊緣 SoC 算力正式邁入 6 TOPS 門檻,瑞芯微 RK3576 給出了首個(gè)可量產(chǎn)的答案:一套完整的多模態(tài)交互對(duì)話解決方案。

RK3576 多模態(tài)純文字:自我介紹

如今,“端側(cè)能否獨(dú)立運(yùn)行圖文多輪對(duì)話” 已不再是技術(shù)疑問,而是工程實(shí)現(xiàn)問題。RK3576 通過硬件算力優(yōu)化與軟件棧協(xié)同,將視覺編碼、語言推理、對(duì)話管理三大核心能力封裝為可落地的工程方案,而本文將聚焦其多輪對(duì)話的部署全流程,拆解從模型加載到交互推理的每一個(gè)關(guān)鍵環(huán)節(jié)。

RK3576 多輪對(duì)話:基于歷史回答圖中女孩頭發(fā)和衣服分別是什么顏色

上一次我們?cè)敿?xì)講解在RK3576上部署多模態(tài)模型的案例,這次將繼續(xù)講解多輪對(duì)話的部署流程。整體流程基于 rknn-llm 里的多輪對(duì)話案例[1]。

6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM,米爾RK3576部署端側(cè)多模態(tài)多輪對(duì)話

RK3576 工作狀態(tài)

本文目錄

一、引言

1.1 什么是多輪對(duì)話?

1.2 多輪對(duì)話系統(tǒng)鳥瞰:三顆“核心”協(xié)同驅(qū)動(dòng)

1.3 核心邏輯:多輪對(duì)話的處理流程

二、工程化落地:從源碼到部署的全流程

2.1 依賴環(huán)境

2.2 一鍵編譯

2.3 端側(cè)部署步驟

三、效果展示:圖文多輪問答

四、二次開發(fā)與拓展方向

五、結(jié)論與未來發(fā)展方向

一、引言

1.1 什么是多輪對(duì)話?

多輪對(duì)話(Multi-Turn Dialogue)是指用戶與智能系統(tǒng)通過多輪交互逐步明確需求、解決問題的對(duì)話形式。這種交互依賴對(duì)話歷史的上下文連貫性,要求系統(tǒng)能夠動(dòng)態(tài)理解用戶意圖、維護(hù)對(duì)話狀態(tài)并生成符合語境的回應(yīng)。

本質(zhì)是動(dòng)態(tài)語境下的交互推理,其核心在于通過多輪信息交換逐步明確用戶需求。例如,用戶可能先詢問 “附近有餐廳嗎?”,系統(tǒng)回應(yīng)后用戶補(bǔ)充 “要適合家庭聚餐的”,系統(tǒng)需結(jié)合歷史對(duì)話調(diào)整推薦策略。

這種交互模式與單輪問答的區(qū)別在于:

· 上下文依賴性:每輪對(duì)話需關(guān)聯(lián)歷史信息(如用戶偏好、已確認(rèn)的細(xì)節(jié))。

· 狀態(tài)維護(hù):系統(tǒng)需跟蹤對(duì)話狀態(tài)(如未完成的信息補(bǔ)全),避免重復(fù)詢問或信息遺漏。

· 動(dòng)態(tài)意圖調(diào)整:用戶可能在對(duì)話中修正或細(xì)化需求,系統(tǒng)需實(shí)時(shí)調(diào)整響應(yīng)策略

1.2 多輪對(duì)話系統(tǒng)鳥瞰:三顆“核心”協(xié)同驅(qū)動(dòng)

RK3576 多模態(tài)交互對(duì)話方案基于 RKLLM 的核心運(yùn)作,依賴于圖像視覺編碼器、大語言模型與對(duì)話管家這三大模塊的協(xié)同配合,三者各司其職、無縫銜接,共同構(gòu)建起完整的多模態(tài)對(duì)話能力。

多輪對(duì)話系統(tǒng)架構(gòu)

1. 圖像視覺編碼器(Vision Encoder)

· 模型選擇:采用 qwen2_5_vl_3b_vision_rk3576.rknn 模型(本文)。

· 核心作用:將輸入圖像壓縮為視覺 token 如 256 個(gè)視覺 token,直接輸入至大語言模型中,實(shí)現(xiàn)圖像信息向語言模型可理解格式的轉(zhuǎn)換。

2. 大語言模型(LLM Core)

· 模型選擇:搭載 qwen2.5-vl-3b-w4a16_level1_rk3576.rkllm 模型,采用 W4A16 量化方案(本文)。

· 模型規(guī)模:參數(shù)規(guī)模達(dá) 30 億,KV-Cache,為對(duì)話推理提供核心的語言理解與生成能力。

3. 對(duì)話管家(Dialogue Manager)

基于純 C++實(shí)現(xiàn),采用單線程事件循環(huán)機(jī)制,承擔(dān)著對(duì)話流程的統(tǒng)籌調(diào)度工作,具體職責(zé)包括:

· 多輪對(duì)話的 KV-Cache 維護(hù)與手動(dòng)清除;

· Prompt 模板的動(dòng)態(tài)渲染;

· 用戶輸入的解析處理與推理結(jié)果的回顯展示。

1.3 核心邏輯:多輪對(duì)話的處理流程

該方案的多模態(tài)多輪對(duì)話 demo,整體遵循“模型加載 → 圖片預(yù)處理 → 用戶交互 → 推理輸出”的核心流程,支持圖文一體的多模態(tài)對(duì)話,適配多輪問答、視覺問答等典型場(chǎng)景。

具體運(yùn)行機(jī)制可拆解為以下步驟:

1. 模型初始化

首先加載大語言模型(LLM),并配置模型路徑、max_new_tokens(生成內(nèi)容最大 token 數(shù))、max_context_len(最大上下文長(zhǎng)度)、top_k、特殊 token 等關(guān)鍵參數(shù);隨后加載視覺編碼模型(imgenc),為后續(xù)圖片處理做好準(zhǔn)備。

RK3576 平臺(tái)運(yùn)行多模態(tài)對(duì)話 Demo 的終端日志,顯示視覺與語言模型成功加載,包含模型版本、硬件配置及張量信息,完成多模態(tài)交互前的初始化。

2. 圖片處理與特征提取

讀取輸入圖片后,先將其擴(kuò)展為正方形并填充背景色以統(tǒng)一尺寸,再調(diào)整至模型要求的 392x392 分辨率,最后送入視覺編碼模型進(jìn)行處理,生成圖片的 embedding 向量,完成圖像特征的提取。

3. 多輪交互機(jī)制

程序會(huì)提供預(yù)設(shè)問題供用戶選擇(官方案例中也有輸入序號(hào),可以快速提問),同時(shí)支持用戶自定義輸入,核心交互邏輯通過以下機(jī)制實(shí)現(xiàn):

· 上下文記憶

· 通過設(shè)置rkllm_infer_params.keep_history = 1,開啟上下文記憶功能,KV-Cache 在顯存中持續(xù)追加存儲(chǔ),每輪對(duì)話僅計(jì)算新增 token,大幅提升推理效率。使模型能關(guān)聯(lián)多輪對(duì)話內(nèi)容;

· 若設(shè)為 0,則每輪對(duì)話獨(dú)立,不保留歷史信息,詳見src/main.cpp。

· 歷史緩存清空:當(dāng)用戶輸入“clear”時(shí),系統(tǒng)調(diào)用rkllm_clear_kv_cache(llmHandle, 1, nullptr, nullptr),清空模型的 KV 緩存,重置對(duì)話上下文。

· Prompt 工程:動(dòng)態(tài)定義模型“人設(shè)”:采用三段式 Prompt 模板,通過rkllm_set_chat_template()動(dòng)態(tài)注入模型,無需重新訓(xùn)練即可切換人設(shè),支持中英文雙語系統(tǒng)提示。

模板示例如下:

<|im_start|>system

You are a helpful assistant.<|im_end|>

<|im_start|>user

{用戶輸入}<|im_end|>

<|im_start|>assistant

4. 推理與輸出

用戶輸入后,系統(tǒng)先判斷輸入中是否包含INCLUDEPICTURE \d "D:\\編輯器\\編輯器\\lib\\" \* MERGEFORMATINET 標(biāo)簽:若包含,則將文本與圖片 embedding 結(jié)合,啟動(dòng)多模態(tài)推理;若不包含,則進(jìn)行純文本推理。組裝輸入結(jié)構(gòu)體并傳遞給模型后,推理結(jié)果將實(shí)時(shí)打印輸出。

5. 退出與資源釋放

支持用戶輸入“exit”退出程序,此時(shí)系統(tǒng)會(huì)自動(dòng)銷毀已加載的模型,并釋放占用的硬件資源,確保運(yùn)行環(huán)境的整潔。

二、工程化落地:從源碼到部署的全流程

由于先前我們已經(jīng)講過環(huán)境的部署,如刷機(jī)、文件準(zhǔn)備等,這里步驟只提出比較關(guān)鍵的。工程位于:rknn-llm/examples/Multimodal_Interactive_Dialogue_Demo,下面我們來逐步看下操作步驟。

2.1 依賴環(huán)境

方案的編譯與運(yùn)行需滿足以下依賴條件

· 圖像處理:OpenCV ≥ 4.5

· 視覺模型運(yùn)行:RKNNRT ≥ 1.6

· 語言模型運(yùn)行:RKLLMRT ≥ 0.9

2.2 一鍵編譯

針對(duì)不同操作系統(tǒng)提供便捷的編譯腳本,我們是 Linux 系統(tǒng)執(zhí)行./build-linux.sh,編譯結(jié)果如下:

產(chǎn)物目錄為:

install/demo_Linux_aarch64/

├─ demo # 主程序可執(zhí)行文件

└─ lib # 依賴動(dòng)態(tài)庫(kù)

2.3 端側(cè)部署步驟

通過 U 盤或者手機(jī)將編譯好的產(chǎn)物文件、模型、圖片上傳到開發(fā)板上,然后在多輪對(duì)話的實(shí)例的目錄下,執(zhí)行以下命令:

cd /data/demo_Linux_aarch64

export LD_LIBRARY_PATH=./lib

./demo demo.jpg vision.rknn llm.rkllm 128 512

其中,部署命令需傳入 5 個(gè)核心參數(shù),分別對(duì)應(yīng):

· image_path:輸入圖片路徑

· encoder_model_path:視覺編碼模型路徑

· llm_model_path:大語言模型路徑

· max_new_tokens:每輪生成的最大 token 數(shù)(控制回答長(zhǎng)度,避免溢出)

· max_context_len:最大上下文長(zhǎng)度(限制歷史對(duì)話+當(dāng)前輸入總長(zhǎng)度,防止顯存占用過高)

三、效果展示:圖文多輪問答

以下面這張圖片作為測(cè)試圖片,選擇下面這張圖是因?yàn)椋腥宋?、文字、物體、背景等。

測(cè)試圖片2:圖片背景是賽博風(fēng)格

我們依次準(zhǔn)備的問題如下:

1. 這張圖片上有哪些文字信息

2. 圖中電路板上的字是什么顏色

3. 圖中女孩頭發(fā)和衣服分別是什么顏色

4. 圖中動(dòng)漫角色看起來多大年齡

5. 圖中背景顏色和女孩眼睛顏色一樣嘛

每輪對(duì)話我都有截動(dòng)態(tài)圖,可以感受下體感速度。

rkllm 模型加載 6.7 秒

視覺編碼 rknn 模型進(jìn)行處理,生成圖片的 embedding 向量,完成圖像特征的提取,4.5 秒

可以明顯感受到這兩個(gè)過程是串行的,如果異步處理可以更快。

多輪對(duì)話1:這張圖片上有哪些文字信息

感受一下第一次出詞的耗時(shí)

多輪對(duì)話1:這張圖片上有哪些文字信息

多輪對(duì)話2:圖中電路板上的字是什么顏色

第二次回答就非???,有一個(gè)很短暫的等待時(shí)間

多輪對(duì)話2:圖中電路板上的字是什么顏色

多輪對(duì)話3:圖中女孩頭發(fā)和衣服分別是什么顏色

多輪對(duì)話3:圖中女孩頭發(fā)和衣服分別是什么顏色,問題基本回答正確,速度和正常閱讀速度差不多

多輪對(duì)話3:圖中女孩頭發(fā)和衣服分別是什么顏色

多輪對(duì)話4:圖中動(dòng)漫角色看起來多大年齡

多輪對(duì)話4:圖中動(dòng)漫角色看起來多大年齡

多輪對(duì)話4:圖中動(dòng)漫角色看起來多大年齡

多輪對(duì)話5:圖中背景顏色和女孩眼睛顏色一樣嘛

記不住了,因?yàn)槲覀冊(cè)O(shè)置的rkllm_infer_params.keep_history = 1

代碼中keep_history = 1是開啟上下文記憶功能,即模型應(yīng)記住前序?qū)υ捴械年P(guān)鍵信息,如 “女孩眼睛顏色”“背景顏色”,而 “記不住” 是記憶功能未生效的表現(xiàn),原因可能除了超過歷史上下文預(yù)設(shè)的閾值,有時(shí)還有可能是因?yàn)樯舷挛拈L(zhǎng)度超限(max_context_len=512),或者KV-Cache 清理機(jī)制誤觸發(fā)等。

多輪對(duì)話5:圖中背景顏色和女孩眼睛顏色一樣嘛

四、二次開發(fā)與拓展方向

方案具備良好的可擴(kuò)展性,便于開發(fā)者根據(jù)需求進(jìn)行二次開發(fā):

1. 替換視覺骨干:修改image_enc.cc文件,將輸入分辨率調(diào)整為與模型匹配的大小,原因是這些參數(shù)與模型的固有結(jié)構(gòu)設(shè)計(jì)和輸入處理邏輯強(qiáng)綁定,直接影響特征提取的正確性和數(shù)據(jù)傳遞的一致性。不同的 Qwen2-VL 模型(2B 和 7B)需要代碼中指定IMAGE_HEIGHT、IMAGE_WIDTH及EMBED_SIZE;

2. 微調(diào) LLM 模型:借助 RKLLM 工具鏈的 LoRA-INT4 量化支持,在 24 GB 顯存的 PC 上,30 分鐘內(nèi)可完成 2 億參數(shù)模型的增量訓(xùn)練;

3. 接入語音能力:在main.cpp中集成 VAD(語音活動(dòng)檢測(cè))+ ASR(語音識(shí)別,如 Whisper-Tiny INT8)模塊,將語音轉(zhuǎn)換為文本后接入現(xiàn)有推理流水線,實(shí)現(xiàn)“看圖說話+語音問答”的融合交互。

五、結(jié)論與未來發(fā)展方向

如果說 “大模型上云” 是 AI 的 “星辰大海”,那么 “多模態(tài)落地端側(cè)” 就是 AI 的 “柴米油鹽”—— 后者決定了智能技術(shù)能否真正滲透到智能家居、工業(yè)質(zhì)檢、穿戴設(shè)備等千萬級(jí)場(chǎng)景中。RK3576 的多模態(tài)交互對(duì)話方案,其價(jià)值遠(yuǎn)不止 “實(shí)現(xiàn)了一項(xiàng)技術(shù)”,更在于提供了一套 “算力適配 - 工程封裝 - 二次拓展” 的端側(cè) AI 落地范式。

從技術(shù)內(nèi)核看,它通過 “視覺編碼器 + LLM + 對(duì)話管家” 的模塊化設(shè)計(jì),平衡了推理性能與開發(fā)靈活性:W4A16 量化方案讓 30 億參數(shù)模型適配 6 TOPS 算力,KV-Cache 動(dòng)態(tài)維護(hù)實(shí)現(xiàn)多輪對(duì)話效率躍升,單線程事件循環(huán)降低了資源占用 —— 這些細(xì)節(jié)不是技術(shù)炫技,而是直擊端側(cè) “算力有限、場(chǎng)景碎片化” 的痛點(diǎn)。從工程落地看,一鍵編譯腳本、清晰的參數(shù)配置、可復(fù)現(xiàn)的部署流程,讓開發(fā)者無需深耕底層優(yōu)化即可快速驗(yàn)證場(chǎng)景,大幅縮短了從技術(shù)原型到產(chǎn)品的周期。

展望未來,這套方案的演進(jìn)將圍繞三個(gè)方向深化:

· 其一,算力效率再突破—— 通過異步模型加載、NPU 與 CPU 協(xié)同調(diào)度,進(jìn)一步壓縮首輪推理延遲,適配對(duì)響應(yīng)速度敏感的車載、醫(yī)療等場(chǎng)景;

· 其二,多模態(tài)融合再升級(jí)—— 在圖文基礎(chǔ)上集成語音、傳感器數(shù)據(jù),實(shí)現(xiàn) “看 + 聽 + 感知” 的跨模態(tài)對(duì)話;

· 其三,生態(tài)適配再拓展—— 支持更多開源多模態(tài)模型的快速移植,形成 “芯片 - 工具鏈 - 模型” 的協(xié)同生態(tài)。

當(dāng) RK3576 證明 “端側(cè)能跑好轉(zhuǎn)好多模態(tài)對(duì)話” 時(shí),邊緣 AI 的競(jìng)爭(zhēng)已從 “能否實(shí)現(xiàn)” 轉(zhuǎn)向 “如何更優(yōu)”。而這套方案的真正意義,在于為行業(yè)提供了一塊 “可復(fù)用的基石”—— 讓更多開發(fā)者無需重復(fù)造輪子,只需聚焦場(chǎng)景創(chuàng)新,就能讓 “離線智能” 從實(shí)驗(yàn)室走向量產(chǎn)貨架,最終讓 “AI 就在身邊” 成為無需網(wǎng)絡(luò)支撐的常態(tài)。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

在科技飛速發(fā)展的當(dāng)下,邊緣 AI 正經(jīng)歷著一場(chǎng)深刻的變革。從最初的 TinyML 微型機(jī)器學(xué)習(xí)探索低功耗 AI 推理,到邊緣推理框架的落地應(yīng)用,再到平臺(tái)級(jí) AI 部署工具的興起以及垂類模型的大熱,我們已經(jīng)成功實(shí)現(xiàn)了 “讓...

關(guān)鍵字: 機(jī)器學(xué)習(xí) 邊緣 AI 無人機(jī)

在科技飛速發(fā)展的當(dāng)下,邊緣 AI 正經(jīng)歷著一場(chǎng)深刻的變革。從最初的 TinyML 微型機(jī)器學(xué)習(xí)探索低功耗 AI 推理,到邊緣推理框架的落地應(yīng)用,再到平臺(tái)級(jí) AI 部署工具的興起以及垂類模型的大熱,我們已經(jīng)成功實(shí)現(xiàn)了 “讓...

關(guān)鍵字: 邊緣 AI 機(jī)器學(xué)習(xí) 無人機(jī)

單核與雙核MCU結(jié)合Arm? Cortex?-M85和M33核心以及Arm Ethos-U55 NPU,實(shí)現(xiàn)高達(dá)256 GOPS的卓越AI性能

關(guān)鍵字: MCU AI NPU

率先將一流硬件、軟件和云服務(wù)相結(jié)合,改變互聯(lián)產(chǎn)品的構(gòu)建、部署和升級(jí)方式,以應(yīng)對(duì)瞬息萬變的需求和日益增加的軟件復(fù)雜性

關(guān)鍵字: 邊緣 AI 物聯(lián)網(wǎng) 半導(dǎo)體

Nordic 突破性 nRF54L 系列和 Neuton.AI 自動(dòng)化 TinyML 平臺(tái)相輔相成,在邊緣實(shí)現(xiàn)易于使用的超高效機(jī)器學(xué)習(xí) (ML)

關(guān)鍵字: 邊緣 AI 機(jī)器學(xué)習(xí) 物聯(lián)網(wǎng)

目前已在超過 5 億臺(tái)設(shè)備中部署AI Virtual Smart Sensors?的全球人工智能軟件領(lǐng)導(dǎo)者依利浦實(shí)驗(yàn)室(Elliptic Labs) (OSE: ELABS) 和幫助智能邊緣設(shè)備更可靠、更高效地連接、感知...

關(guān)鍵字: 邊緣設(shè)備 人工智能 NPU

近年來,美國(guó)通過《AI防擴(kuò)散法案》等政策,對(duì)中國(guó)AI芯片和大模型的使用施加了嚴(yán)格限制,從最初的“禁止向中國(guó)出售AI產(chǎn)品”到后來的“不鼓勵(lì)使用中國(guó)AI芯片”,這些措施深刻影響了全球AI格局。

關(guān)鍵字: 英偉達(dá) GPU AI芯片 NPU DeepSeek AI一體機(jī)

DigiKey 應(yīng)用與技術(shù)門戶平臺(tái)已針對(duì)亞太地區(qū)進(jìn)行了本地化,旨在提高工程師和創(chuàng)新者對(duì)熱門話題的了解程度

關(guān)鍵字: 物聯(lián)網(wǎng) 邊緣 AI 電源

AI與物聯(lián)網(wǎng)系統(tǒng)的融合改變了數(shù)據(jù)的處理、分析與使用方式。多年以來,各種 AI 解決方案始終基于云端部署,而如今邊緣 AI 的興起,在提升運(yùn)行效率、增強(qiáng)安全性和改善運(yùn)營(yíng)可靠性方面提供了頗有潛力的解決方案。本文旨在深入剖析邊...

關(guān)鍵字: 邊緣 AI 物聯(lián)網(wǎng) 機(jī)器學(xué)習(xí)
關(guān)閉