AI相機(jī)V2:建立自己的GPT- 40供電的智能相機(jī)使用
這一切都始于幾個(gè)月前,當(dāng)時(shí)我用ESP32-CAM和TFT觸摸屏制作了我的第一個(gè)版本的人工智能相機(jī)。這個(gè)想法很簡(jiǎn)單,但令人興奮:捕獲圖像,詢問有關(guān)圖像的問題,然后從GPT獲得響應(yīng)。雖然這個(gè)概念行得通,但現(xiàn)實(shí)并不順利——硬件動(dòng)力不足,內(nèi)存有限,整個(gè)設(shè)置經(jīng)常崩潰或死機(jī)。我知道我可以做得更好。
然后有一天,makerfab寄來了一個(gè)包裹——帶攝像頭的MaTouch ESP32-S3 2.8英寸顯示屏。它擁有我所需要的一切:一個(gè)更好的ESP32芯片(擁有更多內(nèi)存和USB支持),一個(gè)更清晰的攝像頭,一個(gè)觸摸屏,甚至還有一個(gè)microSD插槽。當(dāng)我把它拿在手里時(shí),我想:“這可能是我的新版本人工智能相機(jī)的完美大腦和身體?!?
于是開始了構(gòu)建AI Camera V2的旅程。
分解它
我決定采用模塊化的方法。首先,讓相機(jī)實(shí)時(shí)流工作,然后讓它捕捉觸摸圖像,最后將它們存儲(chǔ)到SD卡。這一次,一切都比預(yù)期的順利。看到觸摸屏上的實(shí)時(shí)攝像頭已經(jīng)是一種樂趣了!
接下來是鍵盤——不然我怎么能問GPT問題呢?我嘗試使用LVGL作為UI,但它并不能很好地配合鏡頭流。SquareLine Studio也不支持動(dòng)態(tài)圖像小部件。經(jīng)過幾個(gè)小時(shí)的沮喪和挖掘論壇,我意識(shí)到我必須離開LVGL,去完全Arduino GFX -這意味著從頭開始構(gòu)建我自己的鍵盤。
我就是這么做的。
手動(dòng)繪制按鍵,映射觸摸輸入,處理字符輸入——這是一個(gè)挑戰(zhàn),但也是值得的。這是我第一次在Arduino GFX上使用一個(gè)完全自定義的鍵盤。
是時(shí)候變聰明了
一旦我的圖像捕獲和文本輸入工作,是時(shí)候引入真正的魔力:gpt - 40。我將圖像轉(zhuǎn)換為base64,添加了鍵入的提示符,并將其發(fā)送給OpenAI API。當(dāng)我第一次看到GPT的回復(fù)出現(xiàn)在屏幕上——準(zhǔn)確地回答了一個(gè)關(guān)于我剛剛點(diǎn)擊的圖片的問題——我興奮地笑了。那是你作為一個(gè)創(chuàng)造者而活的時(shí)刻。
最后
為了讓它看起來更時(shí)尚、更方便使用,我設(shè)計(jì)了一個(gè)3d打印的外殼?,F(xiàn)在,這款設(shè)備看起來不太像一個(gè)原型,而更像是一個(gè)迷你的人工智能智能手機(jī)。整潔、干凈、緊湊。但更重要的是——穩(wěn)定。
與第一個(gè)版本不同,這個(gè)版本沒有崩潰。它沒有滯后。它兌現(xiàn)了自己的承諾:一個(gè)小型的、獨(dú)立的人工智能攝像頭,能夠理解它所看到的東西。這是演示項(xiàng)目工作的視頻。您可以從16:22分開始觀看項(xiàng)目測(cè)試部分。如果你想知道我們是如何制作它的,你也可以觀看完整的視頻。
接下來是什么?
我不只是為自己造的。我希望學(xué)生、創(chuàng)客和教育工作者也能嘗試一下。這就是為什么我在我的網(wǎng)站上提供一個(gè)現(xiàn)成的工具包-預(yù)編程,包裝和測(cè)試。只需插上電源,輸入Wi-Fi和OpenAI密鑰,就可以在邊緣探索人工智能了。
這個(gè)項(xiàng)目證明,當(dāng)你迭代時(shí),從過去的構(gòu)建中學(xué)習(xí),并不斷突破界限——神奇的事情就會(huì)發(fā)生。
本文編譯自hackster.io