光子人工智能在加速機器學(xué)習(xí)方面引起了相當(dāng)大的興趣;然而,這種獨特的光學(xué)特性還沒有被充分利用來實現(xiàn)更高階的功能。混沌巡回(Chaotic Itinerancy)及其在多個準(zhǔn)吸引子之間的自發(fā)瞬態(tài)動力學(xué),可用于實現(xiàn)類腦功能。
近日,來自日本埼玉大學(xué)的研究人員研究了一種控制多模半導(dǎo)體激光器中混沌巡回的方法,以解決機器學(xué)習(xí)任務(wù),即多臂老虎機(Multiarmed Bandit)問題,這是強化學(xué)習(xí)的基礎(chǔ)。所提出的方法在通過光注入控制的模式競爭動力學(xué)中使用混沌巡回運動。
研究發(fā)現(xiàn)該探索機制與傳統(tǒng)的搜索算法完全不同,且具有高度可擴展性,優(yōu)于針對大規(guī)模老虎機問題的傳統(tǒng)方法。這項研究為使用混沌巡回有效解決作為光子硬件加速器的復(fù)雜機器學(xué)習(xí)任務(wù)鋪平了道路。
該研究以「Controlling chaotic itinerancy in laser dynamics for reinforcement learning」為題,于 2022 年 12 月 7 日發(fā)布在《Science Advances》上。
論文鏈接:https://www.science.org/doi/10.1126/sciadv.abn8325
多臂老虎機、混沌巡回與光子加速器
光子加速器通過使用光子技術(shù)克服半導(dǎo)體技術(shù)中集成電路密度的限制,提供快速高效的信息處理,被稱為摩爾定律的終結(jié)。光子加速器可以被認(rèn)為是使用光信號與電子計算相結(jié)合的預(yù)處理器。
在強化學(xué)習(xí)(RL)中,智能體通過反復(fù)試驗學(xué)習(xí)行為,以最大限度地從與動態(tài)環(huán)境的交互中獲得回報。強化學(xué)習(xí)已被廣泛用于圍棋游戲、彈性光網(wǎng)絡(luò)中的信號傳輸和機器人控制中獲得卓越的性能。
多臂老虎機問題是概率論中一個經(jīng)典問題,也屬于強化學(xué)習(xí)的范疇。設(shè)想,一個賭徒面前有 N 個老虎機,事先他不知道每臺老虎機的真實盈利情況,他如何根據(jù)每次玩老虎機的結(jié)果來選擇下次拉哪臺或者是否停止賭博,來最大化自己的從頭到尾的收益。
解決多臂老虎機問題對于光子決策至關(guān)重要。這個問題的目標(biāo)是最大化來自多項選擇或老虎機的總獎勵,其命中概率是未知的。多臂老虎機問題解決了強化學(xué)習(xí)中最關(guān)鍵的挑戰(zhàn)之一,即最大化總獎勵的探索-利用困境。使用光子動力系統(tǒng)已經(jīng)成功地實現(xiàn)了選擇具有最高命中概率的老虎機。
決策的可擴展性,即如何應(yīng)對越來越多的老虎機或選擇,是至關(guān)重要的。
混沌巡回是一種現(xiàn)象,其中多個不穩(wěn)定的吸引子(稱為準(zhǔn)吸引子)共存,并且動力系統(tǒng)的變量圍繞這些準(zhǔn)吸引子移動?;煦缪不乇徽J(rèn)為對于理解大腦中自發(fā)活動的出現(xiàn)至關(guān)重要。此外,混沌巡回已被用于實現(xiàn)聯(lián)想記憶。最近,通過使用混沌巡回設(shè)計了自發(fā)行為切換。通過用于機器學(xué)習(xí)的實用工程平臺實現(xiàn)的混沌巡回是實現(xiàn)大腦高功能的一種有前途且令人興奮的方法。
在光子系統(tǒng)中觀察到混沌巡回作為多模半導(dǎo)體激光器中多個縱模之間的混沌模式競爭動力學(xué)。多模半導(dǎo)體激光器中的混沌模式競爭動力學(xué)可能是實現(xiàn)有效自發(fā)搜索能力的合適平臺,以在存在多重不確定性的情況下探索最優(yōu)選擇。盡管確定性混沌系統(tǒng)的可控性會導(dǎo)致混沌巡回的功能性,但在基于強化學(xué)習(xí)的應(yīng)用中開發(fā)一種控制混沌巡回的方案是一項相當(dāng)大的挑戰(zhàn)。
在此,研究人員設(shè)計并進行了研究,以通過在具有光學(xué)反饋和注入的多模半導(dǎo)體激光器中通過數(shù)值和實驗控制混沌巡回(即模式競爭動力學(xué))來評估光子決策的可行性。通過使用混沌巡回對多種選擇進行有效探索來解決作為強化學(xué)習(xí)基礎(chǔ)的多臂強老虎機問題。研究了選擇數(shù)量的可擴展性,并證明基于混沌巡回的方法優(yōu)于置信上限 1 (UCB1) 調(diào)整方法,后者是最著名的軟件算法之一。
本研究旨在研究混沌巡回,以利用激光動力學(xué)的獨特物理特性,并解決光子決策原理的可擴展性問題。據(jù)我們所知,這是使用混沌巡回加速強化學(xué)習(xí)任務(wù),并建立包含技術(shù)上可行的設(shè)備元素的具體光子硬件架構(gòu)的首次演示。
具有光反饋和注入的多模半導(dǎo)體激光器
圖 1 示意性地顯示了具有光反饋和注入的多模半導(dǎo)體激光器的系統(tǒng)架構(gòu)和動力學(xué)。假定多模半導(dǎo)體激光器的五個縱模被激發(fā),其光頻率表示為 νm,表示第 m 個模態(tài)強度(m = 1, 2, …, 5, νi < νj 表示 i < j)。此外,具有光頻率 fm 的單模半導(dǎo)體激光器用于光注入。單模激光器的光輸出被注入多模半導(dǎo)體激光器中頻率為 νm 的第 m 模態(tài)強度,以控制模式競爭動力學(xué),如圖 1 所示。fm 與 νm 略微失諧以實現(xiàn)注入鎖定。
圖 1:具有光反饋和注入的多縱模半導(dǎo)體激光器。(來源:論文)
研究人員使用具有光反饋的多縱模半導(dǎo)體激光器的數(shù)值模型,該模型方程是 Lang-Kobayashi 方程的擴展,這是具有光反饋的半導(dǎo)體激光器的著名數(shù)值模型方程。
還添加了來自單模半導(dǎo)體激光器的光注入項。模式 1、2、…、M 是從低頻模式到高頻模式分配的。這種多模半導(dǎo)體激光系統(tǒng)是一個沒有光注入的自主系統(tǒng)。
圖 2:光反饋多模半導(dǎo)體激光器的時間波形。(來源:論文)
研究了在沒有光注入的情況下發(fā)生混沌巡回時總強度在其中一種模式上的停留時間。
圖 3:不同振蕩頻率的五種模態(tài)總強度的混沌巡回。(來源:論文)
發(fā)現(xiàn)停留時間概率的指數(shù)關(guān)系為 P = Ae^βt,其中 t 表示停留時間,A 和 β 為實數(shù)。當(dāng)模式位于中心時,激光動力學(xué)極有可能提供相對穩(wěn)定的駐留,而當(dāng)模式位于遠(yuǎn)離中心模式時,它會探索其他模式。
圖 3D 顯示了模式 3 中光注入下每個模態(tài)強度的總強度停留時間的概率。模式 3 中的停留時間通過光注入增強,概率曲線斜率的絕對值減小。相反,其他模式的停留時間減少,斜率的絕對值增加。值得注意的是,在所有模式的短(<1 ns)和長(>1 ns)停留時間區(qū)域觀察到不同的斜率。因此,混沌巡回的統(tǒng)計特性可以通過光注入來改變。
圖 4:五種模式的主模比與光注入強度的函數(shù)關(guān)系。(來源:論文)
研究得出,可以通過改變光注入強度來配置特定模式成為主導(dǎo)模式的概率。換句話說,可以通過將光學(xué)注入設(shè)計為特定模式來控制模式競爭動力學(xué)。
決策性能的可擴展性
接下來,研究了老虎機數(shù)量變化時決策性能的可擴展性。
圖 5:多模半導(dǎo)體激光器(紅色)和 UCB1 調(diào)諧軟件算法(藍(lán)色)的可擴展性比較。
研究發(fā)現(xiàn),當(dāng)老虎機數(shù)量非常大(超過 100 臺)時,使用多模激光動力學(xué)的方法優(yōu)于 UCB1 調(diào)優(yōu)算法。UCB1-tuned 算法基于置信區(qū)間并行選擇老虎機,逐漸降低熵;但是,無法誘導(dǎo)加速。因此,當(dāng)老虎機數(shù)量較多時,基于多模激光動力學(xué)的方法可以比 UCB1 調(diào)整算法更快地選擇正確的老虎機。
所提出的基于混沌巡回的方法的標(biāo)度指數(shù)為 0.70。這表明所提出的方法在大量老虎機下的優(yōu)勢,與現(xiàn)有的軟件算法和其他光子方法相比。UCB1 調(diào)優(yōu)算法的指數(shù)為 1.06,而 UCB1 調(diào)優(yōu)算法的指數(shù)為 1.06,文獻中報告的光子方法分別為 1.16 和 1.85從許多具有未知回報的選擇中識別最佳選擇在實際應(yīng)用中至關(guān)重要,所提出的光子方法可能為解決此類大規(guī)模強盜問題開辟一條途徑。
研究人員所提的決策方法可以應(yīng)用于產(chǎn)生混沌巡回的其他非線性動力系統(tǒng)?;煦缪不刂С值淖园l(fā)搜索能力對于解決復(fù)雜的機器學(xué)習(xí)任務(wù)以及理解大腦的自發(fā)活動非常有前途。
總之,這項研究表明,多模激光動力學(xué)中的混沌巡回是解決作為光子加速器的機器學(xué)習(xí)任務(wù)的有前途的資源。所提出的基于混沌巡回的原理利用了光的高帶寬屬性以及復(fù)雜的激光動力學(xué),這通過停留時間統(tǒng)計和熵分析得到體現(xiàn)。
基于通過本研究獲得的見解,所提出的結(jié)合混沌巡回和復(fù)雜激光動力學(xué)的方法可以擴展到解決未來的高階問題和復(fù)雜的機器學(xué)習(xí)任務(wù)。
轉(zhuǎn)載請注明出處。