AI相機V2:建立自己的GPT- 40供電的智能相機使用
這一切都始于幾個月前,當(dāng)時我用ESP32-CAM和TFT觸摸屏制作了我的第一個版本的人工智能相機。這個想法很簡單,但令人興奮:捕獲圖像,詢問有關(guān)圖像的問題,然后從GPT獲得響應(yīng)。雖然這個概念行得通,但現(xiàn)實并不順利——硬件動力不足,內(nèi)存有限,整個設(shè)置經(jīng)常崩潰或死機。我知道我可以做得更好。
然后有一天,makerfab寄來了一個包裹——帶攝像頭的MaTouch ESP32-S3 2.8英寸顯示屏。它擁有我所需要的一切:一個更好的ESP32芯片(擁有更多內(nèi)存和USB支持),一個更清晰的攝像頭,一個觸摸屏,甚至還有一個microSD插槽。當(dāng)我把它拿在手里時,我想:“這可能是我的新版本人工智能相機的完美大腦和身體?!?
于是開始了構(gòu)建AI Camera V2的旅程。
分解它
我決定采用模塊化的方法。首先,讓相機實時流工作,然后讓它捕捉觸摸圖像,最后將它們存儲到SD卡。這一次,一切都比預(yù)期的順利??吹接|摸屏上的實時攝像頭已經(jīng)是一種樂趣了!
接下來是鍵盤——不然我怎么能問GPT問題呢?我嘗試使用LVGL作為UI,但它并不能很好地配合鏡頭流。SquareLine Studio也不支持動態(tài)圖像小部件。經(jīng)過幾個小時的沮喪和挖掘論壇,我意識到我必須離開LVGL,去完全Arduino GFX -這意味著從頭開始構(gòu)建我自己的鍵盤。
我就是這么做的。
手動繪制按鍵,映射觸摸輸入,處理字符輸入——這是一個挑戰(zhàn),但也是值得的。這是我第一次在Arduino GFX上使用一個完全自定義的鍵盤。
是時候變聰明了
一旦我的圖像捕獲和文本輸入工作,是時候引入真正的魔力:gpt - 40。我將圖像轉(zhuǎn)換為base64,添加了鍵入的提示符,并將其發(fā)送給OpenAI API。當(dāng)我第一次看到GPT的回復(fù)出現(xiàn)在屏幕上——準(zhǔn)確地回答了一個關(guān)于我剛剛點擊的圖片的問題——我興奮地笑了。那是你作為一個創(chuàng)造者而活的時刻。
最后
為了讓它看起來更時尚、更方便使用,我設(shè)計了一個3d打印的外殼。現(xiàn)在,這款設(shè)備看起來不太像一個原型,而更像是一個迷你的人工智能智能手機。整潔、干凈、緊湊。但更重要的是——穩(wěn)定。
與第一個版本不同,這個版本沒有崩潰。它沒有滯后。它兌現(xiàn)了自己的承諾:一個小型的、獨立的人工智能攝像頭,能夠理解它所看到的東西。這是演示項目工作的視頻。您可以從16:22分開始觀看項目測試部分。如果你想知道我們是如何制作它的,你也可以觀看完整的視頻。
接下來是什么?
我不只是為自己造的。我希望學(xué)生、創(chuàng)客和教育工作者也能嘗試一下。這就是為什么我在我的網(wǎng)站上提供一個現(xiàn)成的工具包-預(yù)編程,包裝和測試。只需插上電源,輸入Wi-Fi和OpenAI密鑰,就可以在邊緣探索人工智能了。
這個項目證明,當(dāng)你迭代時,從過去的構(gòu)建中學(xué)習(xí),并不斷突破界限——神奇的事情就會發(fā)生。
本文編譯自hackster.io