摘 要:關聯規(guī)則算法中FP-Growth算法雖不產生候選集,但由于算法高度依賴于內存空間,阻礙了算法在大數據領域的 發(fā)揮,因此,改進了經典的FP-Growth算法,首先創(chuàng)建支持度計數表,避免了算法對條件模式基的第一次遍歷,減少了對數據 庫的掃描次數;其次利用剪枝策略刪去了大量沉余的非頻繁項集;最后將算法并行化,利用Hadoop平臺優(yōu)勢極大提高數據 處理的效率,同時解決了算法占用內存的瓶頸問題。實驗結果表明,改進型FP-Growth算法挖掘和預測軌跡的效率明顯高于 經典算法。