一、 拋出問(wèn)題
租車(chē)出游或是借用他人車(chē)輛時(shí),我總會(huì)陷入操作困境。車(chē)內(nèi)功能五花八門(mén),按鈕位置、功能菜單一概不知。想打開(kāi)尾箱,手指在車(chē)內(nèi)摸索半天也找不到
開(kāi)關(guān);要加油了,卻怎么也找不到油箱蓋的開(kāi)啟按鈕,滿(mǎn)心都是無(wú)助與迷茫。
獨(dú)自駕車(chē)踏上旅程,想提前在目的地周邊精挑好評(píng)餐館,預(yù)訂舒適旅店,把行程安排得細(xì)致妥帖。要是途中遇到油箱見(jiàn)底,需要沿途找個(gè)加油站,確保愛(ài)車(chē)?“能量滿(mǎn)滿(mǎn)”。
行車(chē)途中,難免意外不期而至。前一刻還在有條不紊地規(guī)劃行程,下一秒意外突然降臨,瞬間大腦一片空白,整個(gè)人慌了神,手腳都不知道該怎么放,完全不知道如何應(yīng)對(duì),只覺(jué)得孤立無(wú)援。
目前的確有不同途徑解決以上問(wèn)題,但能否有更簡(jiǎn)潔方式呢?今年DeepSeek的不期而遇,使我有更多想法
二、 想法
一個(gè)智能語(yǔ)言人機(jī)界面。通過(guò)喚醒語(yǔ),激活語(yǔ)音輸入功能,系統(tǒng)幫你實(shí)現(xiàn)各種功能。
1、 車(chē)輛功能語(yǔ)言操作
(1)如開(kāi)關(guān)前大燈、遠(yuǎn)光、雨刷。開(kāi)個(gè)空調(diào),設(shè)置溫度,除除前擋玻璃的霧氣。播放音樂(lè),開(kāi)開(kāi)油箱蓋,檢查車(chē)門(mén)是否關(guān)好等等,出來(lái)一些安全操作外,這些都可以手不離開(kāi)方向盤(pán),通過(guò)語(yǔ)言輸入實(shí)現(xiàn)。
(2)此前有新聞司機(jī)突發(fā)疾病或車(chē)子無(wú)法制動(dòng),是否能通過(guò)語(yǔ)音繞過(guò)機(jī)械踏板,這都可以探討。部分安全操作,可以增加二次確認(rèn)的環(huán)節(jié)。
(3)導(dǎo)航目前可以使用語(yǔ)言控制,可以與這系統(tǒng)整合在一起。而且可以增加更多智能互動(dòng),如目的地餐飲旅館介紹,旅游景點(diǎn)介紹。甚至可以進(jìn)行預(yù)定服務(wù)。
2、 車(chē)輛功能、應(yīng)急指導(dǎo)
(1)在大語(yǔ)言模型加持下,把汽車(chē)相關(guān)安全知識(shí),汽車(chē)手冊(cè)等做成本地知識(shí)庫(kù),需要時(shí)不需再到厚厚的操作手冊(cè)中翻找,或拿起手機(jī)臨時(shí)搜索。而且可以在屏幕上顯示相關(guān)操作視頻。
(2)當(dāng)有網(wǎng)絡(luò)可以使用聯(lián)網(wǎng)方式獲取更準(zhǔn)確詳盡的信息,無(wú)網(wǎng)絡(luò)下(如邊遠(yuǎn)地區(qū))也可以通過(guò)本地部署的簡(jiǎn)潔模型,為使用者提供服務(wù)。
(3)需要時(shí)可以通過(guò)連接的手機(jī)撥打救援電話;
3、 司機(jī)在駕駛時(shí),不方便使用手機(jī),語(yǔ)音對(duì)話功能會(huì)更方便安全。同時(shí)屏幕可以輔助顯示關(guān)鍵信息。
三、 本項(xiàng)目實(shí)現(xiàn)功能
1、 系統(tǒng)圖
1、 硬件:
顯示屏:顯示處理過(guò)程、語(yǔ)義分類(lèi)情況、Deepseek的回復(fù)等信息
音箱:輸出語(yǔ)義分類(lèi)及Deepseek的回復(fù)
2、 音頻處理:語(yǔ)音輸入輸出使用sherpa_onnx庫(kù),是一個(gè)基于 ONNX 運(yùn)行時(shí)的
開(kāi)源語(yǔ)音處理庫(kù),支持多種語(yǔ)音相關(guān)任務(wù),包括
語(yǔ)音識(shí)別、語(yǔ)音合成、說(shuō)話人識(shí)別、語(yǔ)言識(shí)別等。ASR使用sherpa-ncnn-streaming-zipformer-bilingual-zh-en模型,TTS使用vits-melo-tts-zh_en模型,支持中英文輸入輸出。
3、
樸素貝葉斯語(yǔ)義分類(lèi),使用”開(kāi)”、“關(guān)”、“大燈”、“雨刷”等17個(gè)關(guān)鍵詞,進(jìn)行語(yǔ)義分類(lèi),共分“導(dǎo)航命令”、“Deepseek查詢(xún)”、“打開(kāi)前大燈命令”等9個(gè)分類(lèi),分類(lèi)算法見(jiàn)源碼附件中的excel表格。
4、?大型語(yǔ)言模型,使用本地部署的Deepseek 1.5B模型,查詢(xún)后,通過(guò)語(yǔ)音播送出來(lái)。
5、樹(shù)莓派5同時(shí)運(yùn)行多個(gè)
AI算法,比較勉強(qiáng),程序中我同時(shí)使用三個(gè)核,一個(gè)核進(jìn)行語(yǔ)音識(shí)別和語(yǔ)義分類(lèi),一核進(jìn)行Deepseek查詢(xún),一核進(jìn)行語(yǔ)音合成。這樣核間
通信比較簡(jiǎn)單,只有字符串,核與核之間通信使用Pipe方式。
四、 實(shí)現(xiàn)效果以及源碼
百度網(wǎng)盤(pán)鏈接:?https://pan.baidu.com/s/10i-BarrN5Fz1N99xAMtGxQ&Pwd=c77j?提取碼: c77j
五、 不足與展望
1、樹(shù)莓派5不帶NPU,在
人工智能方面使用方面顯得性能不足,目前帶NPU的
處理器如雨后春筍般涌現(xiàn),性能方面能得到大大提升。
2、受個(gè)人能力限制,樸素貝葉斯語(yǔ)義分類(lèi)只是使用手工做了個(gè)簡(jiǎn)單的分類(lèi)。
3、ASR與TTS更換不同模型,可以支持更多語(yǔ)種,本項(xiàng)目中只是支持中英文兩種。