www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當前位置:首頁 > 物聯(lián)網 > 智能應用
[導讀]現(xiàn)在我們準備開始收集數據了!但是我們有一些選擇,我們必須決定前進的道路?;旧?我們可以有兩種方法來收集數據:使用現(xiàn)有數據或創(chuàng)建新數據。

現(xiàn)在我們準備開始收集數據了!但是我們有一些選擇,我們必須決定前進的道路?;旧?我們可以有兩種方法來收集數據:使用現(xiàn)有數據或創(chuàng)建新數據。

利用現(xiàn)有數據

·

從相關社區(qū)或內部來源收集第一方數據。

·

o 調查、內部數據來源和眾包可以用來收集第一方的數據。

o 專業(yè)知識 當前位置這可能是你最接近的"地面真相"數據,從而是你可能收集到的最高質量的數據。

o 債權人 :除非您已經可以訪問數據集,否則以這種方式構建新的數據集可能是緩慢和耗時的。如果您的數據集中有可識別的個人信息,您還需要建立保證,以確保您的數據提供者的隱私不受損害。

·

從公共數據集、數據提供者.

·

o 現(xiàn)有的數據集可以在網上找到,從數據經紀人那里購買,或者直接從網絡上刮走,可以成為利用已經收集的數據的強大方式。

o 專業(yè)知識 :這個方法可以是收集大量和多樣化的真實數據的一個很好的方法。

o 債權人 :在使用第三方數據集時,可能難以確保個人隱私。此外,一些數據收集方法,如網絡收集,可能會違反一些網站的服務條款。

創(chuàng)建新數據

人類生成的

顯然,您可以編寫自己的提示/響應演示來培訓模型。為了擴大規(guī)模,您甚至可以與數據公司合作(例如:?涌動 ,?比例尺 )以規(guī)模制作人為數據。

· 專業(yè)知識 :人類的判斷對于確保生成的數據有意義和有用是有用的。

· 債權人 :讓人類編寫數據可能成本高昂,時間很長。加上各種層次的質量控制,人類數據就會變成一個復雜的操作。

合成生成的

您還可以簡單地請求一個LLM為您生成數據。

· 專業(yè): 這是一種可以很快擴展到大量數據集的廉價方法。

· 債權人 :模型無法超越自身的性能,所以通常合成數據只會導致模型回歸到均值。雖然可以通過測試不同的數據生成步驟模型來解決這一問題,但它也可以在數據集中引入幻覺和錯誤,這對人類來說很容易發(fā)現(xiàn),但對LLM來說卻很難捕捉到。

混合體

一個強大的技術是通過讓人類和模型連續(xù)地重寫彼此的輸入來結合人類和合成數據的生成。

· 專業(yè)知識 :最好的人類和LLM一代??赡軙^模型。

· 債權人 當前位置雖然這是一個很好的妥協(xié),但它仍然需要相當多的復雜性和努力來糾正。

為你的項目選擇正確的方法

選擇最佳數據生成方法取決于各種因素:

· 項目范圍和時間表

· 現(xiàn)有資源(預算、人力、現(xiàn)有數據)

· 所需數據質量和具體性

· 隱私和法律考慮

對于我們的膳食計劃機器人,我們選擇合成數據生成。這一選擇使我們能夠:

1. 快速生成一個大的、不同的數據集

2. 保持對數據分布和邊緣案例的控制

3. 避免與真實用戶數據有關的潛在隱私問題

然而,請記住,在生產環(huán)境中,將合成數據與經過仔細審查的實際實例相結合的混合方法往往會產生最佳結果。

在我們的情況下,我們將創(chuàng)建合成數據。雖然混合方法在這里會很好地發(fā)揮作用,但為了本教程的目的,我們希望保持流程簡單而又便宜,這樣您就可以獲得建立模型的知識和信心。

生成合成數據

合成數據生成 在人工智能領域,它變得越來越重要,因為它允許開發(fā)人員創(chuàng)建大型的、多樣化的數據集,根據他們的具體用例定制。通過生成合成示例,我們可以擴展我們的培訓數據,涵蓋更廣泛的場景,并最終提高我們人工智能模型的性能。例如,國家衛(wèi)生研究院與該行業(yè)合作,創(chuàng)建了對場景規(guī)劃和其他目的有用的"19號數據集"。

人工智能膳食計劃中,合成數據生成使我們能夠根據各種用戶屬性和偏好創(chuàng)建個性化膳食計劃。通過構造一組規(guī)則和模板,我們可以生成模擬模型在實際使用中將遇到的數據類型的實際例子。

一種流行的合成數據生成方法叫做"基于規(guī)則的生成"。"這個方法包括創(chuàng)建一個結構化提示符,概述所需數據的上下文、輸入參數、輸出格式和示例。讓我們打破構建這樣一個提示的過程:

· 背景: 首先,明確描述這個任務和模型應該扮演的角色。在我們的案例中,我們希望模型作為專家營養(yǎng)師創(chuàng)造個性化的膳食計劃。

· 輸入參數 :指定模型生成膳食計劃時應考慮的用戶屬性和偏好。這可以包括年齡、身高、體重、活動水平、飲食限制和個人目標。

· 產出格式 :為生成的膳食計劃確定一個一致的結構,包括大量營養(yǎng)素(碳水化合物、蛋白質、脂肪)的分解、食物類型以及每頓飯和零食的數量。

· 例子 :提供一些符合指定格式和限制的膳食計劃的典型例子。這些示例作為模型生成新數據點時的模板。

下面是一個包含這些要素的提示的例子:

普通文本

You are an expert dietician. You prepare detailed meal plans for individuals customized based on their age, weight, activity level and a number of other attributes to optimize their health.

Below, I've provided you with the attributes of a specific user, please generate a meal plan for Breakfast, Lunch, Dinner, and 2 snacks. For each meal, use the following format:

Carbs (what type and how much)

Chicken/Fish/Meat (what type and how much)

Whey Protein (how much)

Veggies (what type and how much)

Oil/Fat (how much)

Include a calculation of total calories per meal, and for the whole day and include that in your response. Do not include any additional information.

{User Attributes}

通過向語言模型提供這個結構化提示符,我們可以通過改變用戶屬性生成多個膳食計劃示例。這使我們能夠創(chuàng)建涵蓋廣泛的用戶檔案和偏好的多樣化數據集。

然而,驗證生成的數據以確保其準確性和適當性是至關重要的。涉及領域專家,如營養(yǎng)學家或營養(yǎng)學家,可以幫助識別任何不一致,偏見,或不現(xiàn)實的例子。他們可以提供寶貴的反饋,以完善及時生成的膳食計劃和提高質量。

讓我們在模型上測試這個提示符。使用下列用戶屬性:

· Age: 25

· 身高:160厘米

· 體重:55公斤

· 活動水平:不詳

· 膳食限制:不詳

· 個人偏好/目標:他們希望保持自己的體重,保持22%的脂肪比例。

我們得到以下答復:

普通文本

Breakfast (400 calories)

Carbs: 50g (1 cup oatmeal)

Chicken/Fish/Meat: None

Whey Protein: 30g

Veggies: 1 cup mixed berries

Oil/Fat: 10g (2 tsp almond butter)

Lunch (450 calories)

Carbs: 60g (1 cup cooked quinoa)

Chicken/Fish/Meat: 120g grilled chicken breast

Whey Protein: None

Veggies: 2 cups mixed greens salad with cucumber, tomatoes

Oil/Fat: 15g (1 tbsp olive oil dressing)

Dinner (550 calories)

Carbs: 70g (1 medium baked sweet potato)

Chicken/Fish/Meat: 150g baked salmon

Whey Protein: None

Veggies: 2 cups steamed broccoli

Oil/Fat: 20g (1 tbsp olive oil + 1/4 avocado)

Snack 1 (150 calories)

Carbs: 20g (1 medium apple)

Chicken/Fish/Meat: None

Whey Protein: None

Veggies: None

Oil/Fat: 10g (2 tbsp peanut butter)

Snack 2 (200 calories)

Carbs: 25g (1 cup nonfat Greek yogurt)

Chicken/Fish/Meat: None

Whey Protein: None

Veggies: None

Oil/Fat: 5g (a small handful of almonds)

Total Daily Calories: 1750

看上去棒極了!遵循了格式,響應看起來合理?,F(xiàn)場檢查一些食物,熱量的計數似乎是檢查出來的。在這個階段,重要的是重復檢查這些值是否準確,也許甚至與領域專家(在我們的案例中是營養(yǎng)學家或營養(yǎng)學家)核實這些結果。

現(xiàn)在,您可能想知道,為什么我們需要生成數據,而模型已經非常擅長處理這個用例?是的!這個模型似乎能夠處理這個用例。然而,讓我們通過增加一個"不要乏味的食物"的個人偏好來使它更加復雜:

普通文本

Breakfast (350 calories)

Carbs: 1 cup oatmeal (50g)

Chicken/Fish/Meat: 1/2 cup scrambled eggs (2 eggs)

Whey Protein: 1 scoop (25g)

Veggies: 1/2 cup spinach (20g)

Oil/Fat: 1 tsp olive oil (5g)

Lunch (400 calories)

Carbs: 1 cup quinoa (40g)

Chicken/Fish/Meat: 4 oz grilled chicken breast (115g)

Whey Protein: N/A

Veggies: 1 cup mixed greens (30g), 1/2 cup cherry tomatoes (50g), 1/4 cup cucumber (25g)

Oil/Fat: 1 tbsp olive oil (15g)

Snack 1 (150 calories)

Carbs: 1/2 cup fruit salad (100g)

Chicken/Fish/Meat: N/A

Whey Protein: N/A

Veggies: N/A

Oil/Fat: N/A

Snack 2 (200 calories)

Carbs: 1/4 cup trail mix (50g)

Chicken/Fish/Meat: N/A

Whey Protein: N/A

Veggies: N/A

Oil/Fat: N/A

Dinner (500 calories)

Carbs: 1 cup brown rice (50g)

Chicken/Fish/Meat: 4 oz grilled turkey breast (115g)

Whey Protein: N/A

Veggies: 1 cup broccoli (100g), 1/2 cup bell peppers (50g)

Oil/Fat: 1 tbsp olive oil (15g)

Total Daily Calories: 1600 calories

嗯。.這種反應不如第一個反應那么強烈。我們早餐吃雞蛋,午餐吃雞胸肉等等。我們可以使用這個示例和其他具有挑戰(zhàn)性的場景來構建我們的數據集。舉個例子,讓我們?yōu)樗鎏砣の?

普通文本

Breakfast (350 calories)

Carbs: 1 cup cassava (50g)

Chicken/Fish/Meat: 1/2 cup (80g) Scrambled Eggs with 1/2 cup chopped spinach

Whey Protein: 1 scoop (25g)

Veggies: 1/2 cup spinach (20g)

Oil/Fat: 1 tsp olive oil (5g)

Lunch (400 calories)

Carbs: 1 cup quinoa (40g)

Chicken/Fish/Meat: 4 oz (115g) Ground Turkey (can be seasoned and formed into patties)

Whey Protein: N/A

Veggies: 1 cup mixed greens (30g), 1/2 cup cherry tomatoes (50g), 1/4 cup cucumber (25g)

Oil/Fat: 1 tbsp olive oil (15g)

Snack 1 (150 calories)

Carbs: 1/2 cup fruit salad (100g)

Chicken/Fish/Meat: N/A

Whey Protein: N/A

Veggies: N/A

Oil/Fat: N/A

Snack 2 (200 calories)

Carbs: 1/2 cup Mango cubes (75g)

Chicken/Fish/Meat: N/A

Whey Protein: N/A

Veggies: N/A

Oil/Fat: N/A

Dinner (500 calories)

Carbs: 1 cup brown rice (50g)

Chicken/Fish/Meat: 4 oz (115g) Tofu (can be pan-fried or baked)

Whey Protein: N/A

Veggies: 1 cup broccoli (100g), 1/2 cup bell peppers (50g)

Oil/Fat: 1 tbsp olive oil (15g)

Total Daily Calories: 1600 calories

太好了-好多了,更有趣一點!

當您構建數據集時,您可能會發(fā)現(xiàn)您的模型同樣有能力。但是,當你繼續(xù)測試不同的場景時,你肯定會發(fā)現(xiàn)一些邊緣案例,在這些案例中,模型會遇到困難,你可以幫助它更好地執(zhí)行。

現(xiàn)在有了很多例子,我們可以開始準備數據了。然而,在這樣做之前,我們需要為每個用戶場景構造一個提示符。如上所述,我們只是將一些用戶屬性注入到我們的提示符中,但是為了使它更現(xiàn)實,我們需要將其構造成如下句子:

I'm 25, female, about 160cm and 120 pounds. I want to stay the same at around 22% BF.

就這樣!現(xiàn)在我們有數據集了。讓我們轉向谷歌的床單,開始為訓練做好準備。

培訓數據

準確的數據編制步驟可能取決于若干因素,但將數據放在一種易于廣泛受眾審查和操縱的形式中通常是有益的。由于大多數人都很熟悉谷歌的電子表格軟件,比如谷歌的表格軟件是這方面的一個自然選擇,它也很適合審查個人的"記錄"或者培訓數據的"例子"。

設置數據非常簡單。首先,我們需要兩列:"提示"和"響應"。"每一行應根據我們先前構建的數據集,在這些列中包含各自的值?,F(xiàn)在我們有了它,現(xiàn)在是清理數據的好時機。

數據清理

在我們準備好訓練數據之前,我們需要?確保沒有不準確之處 ,不一致,錯誤,以及其他可能妨礙我們最終目標的問題。

有幾個關鍵的注意事項:

缺失價值

您的數據集是完整的還是缺少字段的例子?您需要決定是否要完全刪除這些示例,或者是否要嘗試填寫它們(也稱為歸罪)。

格式問題

文本大寫是否恰當?值是否在正確的單位?是否存在一些結構性問題,如不匹配的括號?需要解決所有這些問題,以確保一致性。

異常、無關和不準確的數據

是否有任何數據遠遠超出規(guī)范,可能誤導模型?應刪除這些數據。另外,注意任何與你的用例無關的數據,并刪除它。與領域專家合作可以是一種過濾不屬于的數據集的有效策略。

通過仔細清理和預處理你的數據,你正在為自己成功地訓練一個高性能的模型。這也許不是這個過程中最具魅力的部分,但這是絕對必要的。目前階段的時間投資對于生產級模型至關重要,并將使以后的步驟容易得多。

數據清理的其他最佳做法

· 盡可能自動化 :使用自動化工具和腳本來處理重復性任務,如格式標準化和缺失的價值估算。

· 重復和驗證 *數據清理不是一次性任務。不斷迭代和驗證您的清理方法,以確保持續(xù)的數據質量。

· 把一切都記錄下來 :保存所有數據清理步驟的詳細文件,包括所作的決定和所使用的方法。這將有助于調試和完善您的流程。

· 利用領域知識 :與領域專家合作,以確保您的數據清理過程符合現(xiàn)實世界的需求和細微差別。

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

LED驅動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關鍵字: 驅動電源

在工業(yè)自動化蓬勃發(fā)展的當下,工業(yè)電機作為核心動力設備,其驅動電源的性能直接關系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中,反電動勢抑制與過流保護是驅動電源設計中至關重要的兩個環(huán)節(jié),集成化方案的設計成為提升電機驅動性能的關鍵。

關鍵字: 工業(yè)電機 驅動電源

LED 驅動電源作為 LED 照明系統(tǒng)的 “心臟”,其穩(wěn)定性直接決定了整個照明設備的使用壽命。然而,在實際應用中,LED 驅動電源易損壞的問題卻十分常見,不僅增加了維護成本,還影響了用戶體驗。要解決這一問題,需從設計、生...

關鍵字: 驅動電源 照明系統(tǒng) 散熱

根據LED驅動電源的公式,電感內電流波動大小和電感值成反比,輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關鍵字: LED 設計 驅動電源

電動汽車(EV)作為新能源汽車的重要代表,正逐漸成為全球汽車產業(yè)的重要發(fā)展方向。電動汽車的核心技術之一是電機驅動控制系統(tǒng),而絕緣柵雙極型晶體管(IGBT)作為電機驅動系統(tǒng)中的關鍵元件,其性能直接影響到電動汽車的動力性能和...

關鍵字: 電動汽車 新能源 驅動電源

在現(xiàn)代城市建設中,街道及停車場照明作為基礎設施的重要組成部分,其質量和效率直接關系到城市的公共安全、居民生活質量和能源利用效率。隨著科技的進步,高亮度白光發(fā)光二極管(LED)因其獨特的優(yōu)勢逐漸取代傳統(tǒng)光源,成為大功率區(qū)域...

關鍵字: 發(fā)光二極管 驅動電源 LED

LED通用照明設計工程師會遇到許多挑戰(zhàn),如功率密度、功率因數校正(PFC)、空間受限和可靠性等。

關鍵字: LED 驅動電源 功率因數校正

在LED照明技術日益普及的今天,LED驅動電源的電磁干擾(EMI)問題成為了一個不可忽視的挑戰(zhàn)。電磁干擾不僅會影響LED燈具的正常工作,還可能對周圍電子設備造成不利影響,甚至引發(fā)系統(tǒng)故障。因此,采取有效的硬件措施來解決L...

關鍵字: LED照明技術 電磁干擾 驅動電源

開關電源具有效率高的特性,而且開關電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機重量也有所下降,所以,現(xiàn)在的LED驅動電源

關鍵字: LED 驅動電源 開關電源

LED驅動電源是把電源供應轉換為特定的電壓電流以驅動LED發(fā)光的電壓轉換器,通常情況下:LED驅動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關鍵字: LED 隧道燈 驅動電源
關閉