阿里巴巴為什么讓初始化集合時(shí)必須指定大小?
來(lái)源 | Java中文社群(ID:javacn666)
哈嘍,親愛(ài)的小伙伴們,技術(shù)學(xué)磊哥,進(jìn)步?jīng)]得說(shuō)!歡迎來(lái)到新一期的性能解讀系列,我是磊哥。
今天給大家?guī)?lái)的是關(guān)于阿里巴巴《Java開(kāi)發(fā)手冊(cè)》泰山版(最新)中關(guān)于集合初始化時(shí)的性能建議。
阿里巴巴《Java開(kāi)發(fā)手冊(cè)》第 1 章編程規(guī)范,第 6 節(jié)集合處理的第 17 條規(guī)定如下:
【推薦】集合初始化時(shí),指定集合初始值大小。
說(shuō)明:HashMap 使用 HashMap(int initialCapacity) 初始化,如果暫時(shí)無(wú)法確定集合大小,那么指定默認(rèn)值(16)即可。
正例:initialCapacity = (需要存儲(chǔ)的元素個(gè)數(shù) / 負(fù)載因子) + 1。注意負(fù)載因子(即 loader factor)默認(rèn)為 0.75,如果暫時(shí)無(wú)法確定初始值大小,請(qǐng)?jiān)O(shè)置為 16(即默認(rèn)值)。
反例:HashMap 需要放置 1024 個(gè)元素,由于沒(méi)有設(shè)置容量初始大小,隨著元素不斷增加,容量 7 次被迫擴(kuò)大,resize 需要重建 hash 表。當(dāng)放置的集合元素個(gè)數(shù)達(dá)千萬(wàn)級(jí)別時(shí),不斷擴(kuò)容會(huì)嚴(yán)重影響性能。
規(guī)范解讀
此規(guī)范的主要目的完全是出于性能考慮,查看 HashMap的源碼也就可以發(fā)現(xiàn)此規(guī)范的原因,如果我們能為集合設(shè)置合理的大小就可以避免
HashMap的擴(kuò)容操作,而
HashMap的擴(kuò)容方法
resize有很多邏輯判斷和業(yè)務(wù)操作,如果設(shè)置了合理的大小就可以避免執(zhí)行更多的代碼,因此就可以更大限度的提高集合的執(zhí)行效率,
HashMap的
resize源碼如下:// 源碼基于 JDK 8 final Node
threshold = Integer.MAX_VALUE; return oldTab;
} // 擴(kuò)大容量為當(dāng)前容量的兩倍,但不能超過(guò) MAXIMUM_CAPACITY else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY && oldCap >= DEFAULT_INITIAL_CAPACITY)
newThr = oldThr << 1; // double threshold } // 當(dāng)前數(shù)組沒(méi)有數(shù)據(jù),使用初始化的值 else if (oldThr > 0) // initial capacity was placed in threshold newCap = oldThr; else { // zero initial threshold signifies using defaults // 如果初始化的值為 0,則使用默認(rèn)的初始化容量 newCap = DEFAULT_INITIAL_CAPACITY;
newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
} // 如果新的容量等于 0 if (newThr == 0) { float ft = (float)newCap * loadFactor;
newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
(int)ft : Integer.MAX_VALUE);
}
threshold = newThr; @SuppressWarnings({"rawtypes","unchecked"})
Node[] newTab = (Node[])new Node[newCap]; // 開(kāi)始擴(kuò)容,將新的容量賦值給 table table = newTab; // 原數(shù)據(jù)不為空,將原數(shù)據(jù)復(fù)制到新 table 中 if (oldTab != null) { // 根據(jù)容量循環(huán)數(shù)組,復(fù)制非空元素到新 table for (int j = 0; j < oldCap; ++j) { Node e; if ((e = oldTab[j]) != null) {
oldTab[j] = null; // 如果鏈表只有一個(gè),則進(jìn)行直接賦值 if (e.next == null)
newTab[e.hash & (newCap - 1)] = e; else if (e instanceof TreeNode) // 紅黑樹(shù)相關(guān)的操作 ((TreeNode)e).split(this, newTab, j, oldCap); else { // preserve order // 鏈表復(fù)制,JDK 1.8 擴(kuò)容優(yōu)化部分 Node loHead = null, loTail = null;
Node hiHead = null, hiTail = null;
Node next; do {
next = e.next; // 原索引 if ((e.hash & oldCap) == 0) { if (loTail == null)
loHead = e; else loTail.next = e;
loTail = e;
} // 原索引 + oldCap else { if (hiTail == null)
hiHead = e; else hiTail.next = e;
hiTail = e;
}
} while ((e = next) != null); // 將原索引放到哈希桶中 if (loTail != null) {
loTail.next = null;
newTab[j] = loHead;
} // 將原索引 + oldCap 放到哈希桶中 if (hiTail != null) {
hiTail.next = null;
newTab[j + oldCap] = hiHead;
}
}
}
}
} return newTab;
}
性能評(píng)測(cè)
接下來(lái)我們來(lái)測(cè)試一下設(shè)置 size的性能和不設(shè)置 size的性能差別,我們已知需要插入 1024 個(gè)數(shù)據(jù),根據(jù)默認(rèn)的負(fù)載因子 0.75 和公式 (存儲(chǔ)元素個(gè)數(shù)/負(fù)載因子)+1得出需要設(shè)置的大小為 1367(取整)。
小貼士:公式“(存儲(chǔ)元素個(gè)數(shù)/負(fù)載因子)+1”說(shuō)明:因?yàn)?HashMap 的實(shí)際存儲(chǔ)量等于:元素個(gè)數(shù)*負(fù)載因子,為了防止 HashMap 擴(kuò)容,所以公式必須是“(存儲(chǔ)元素個(gè)數(shù)/負(fù)載因子)+1”才能防止動(dòng)態(tài)擴(kuò)容。
本文我們依舊使用 Oracle 官方提供的 JMH(Java Microbenchmark Harness,JAVA 微基準(zhǔn)測(cè)試套件)測(cè)試框架,首先現(xiàn)在 pom.xml 中添加 JMH 引用,配置如下:
<dependency> <groupId>org.openjdk.jmhgroupId> <artifactId>jmh-coreartifactId> <version>{version}version> dependency>
然后編寫完整的測(cè)試代碼:
import org.openjdk.jmh.annotations.*; import org.openjdk.jmh.infra.Blackhole; import org.openjdk.jmh.runner.Runner; import org.openjdk.jmh.runner.RunnerException; import org.openjdk.jmh.runner.options.Options; import org.openjdk.jmh.runner.options.OptionsBuilder; import java.util.HashMap; import java.util.Map; import java.util.concurrent.TimeUnit; @BenchmarkMode(Mode.AverageTime) // 測(cè)試完成時(shí)間 @OutputTimeUnit(TimeUnit.NANOSECONDS) @Warmup(iterations = 2, time = 1, timeUnit = TimeUnit.SECONDS) // 預(yù)熱 2 輪,每次 1s @Measurement(iterations = 5, time = 3, timeUnit = TimeUnit.SECONDS) // 測(cè)試 5 輪,每次 3s @Fork(1) // fork 1 個(gè)線程 @State(Scope.Thread) // 每個(gè)測(cè)試線程一個(gè)實(shí)例 public class AlibabaHashMapTest { public static void main(String[] args) throws RunnerException { // 啟動(dòng)基準(zhǔn)測(cè)試 Options opt = new OptionsBuilder()
.include(AlibabaHashMapTest.class.getSimpleName()) // 要導(dǎo)入的測(cè)試類 .build(); new Runner(opt).run(); // 執(zhí)行測(cè)試 } @Benchmark public void noSizeTest(Blackhole blackhole) {
Map map = new HashMap(); for (int i = 0; i < 1024; i++) {
map.put(i, i);
} // 為了避免 JIT 忽略未被使用的結(jié)果 blackhole.consume(map);
} @Benchmark public void setSizeTest(Blackhole blackhole) {
Map map = new HashMap(1367); for (int i = 0; i < 1024; i++) {
map.put(i, i);
} // 為了避免 JIT 忽略未被使用的結(jié)果 blackhole.consume(map);
}
}
從上述結(jié)果可以看出,設(shè)置了大小的 HashMap的性能約是沒(méi)有設(shè)置大小的 1.29 倍。
總結(jié)
在初始化集合時(shí),如果已知集合的數(shù)量,那么一定要在初始化時(shí)設(shè)置集合的容量大小,這樣就可以有效的提高集合的性能,但需要注意的是 HashMap的實(shí)際存儲(chǔ)量是“元素個(gè)數(shù)*負(fù)載因子”,而負(fù)載因子默認(rèn)是 0.75,因此在設(shè)置大小時(shí),要使用“(存儲(chǔ)元素個(gè)數(shù)/負(fù)載因子)+1”的公式計(jì)算出正確的值再進(jìn)行設(shè)置。
特別推薦一個(gè)分享架構(gòu)+算法的優(yōu)質(zhì)內(nèi)容,還沒(méi)關(guān)注的小伙伴,可以長(zhǎng)按關(guān)注一下:
長(zhǎng)按訂閱更多精彩▼
如有收獲,點(diǎn)個(gè)在看,誠(chéng)摯感謝
免責(zé)聲明:本文內(nèi)容由21ic獲得授權(quán)后發(fā)布,版權(quán)歸原作者所有,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。文章僅代表作者個(gè)人觀點(diǎn),不代表本平臺(tái)立場(chǎng),如有問(wèn)題,請(qǐng)聯(lián)系我們,謝謝!