感謝工業互聯網協會的邀請,我的題目有點偏理論,但是問題是面向智能制造的。我匯報五個方面的內容第一是人工智能的背景,我給大家看看人工智能的近期目標和遠期目標。遠期目標,就是揭示人工智能的根本機理,用智能機器去模擬,去仿真人類的智能。這涉及到很多科學領域,包括腦科學、認知科學、計算機、系統科學和控制論。
近期的目標就是怎么能夠讓機器更多地響應它的智能,有沒有可能超過人的智能,這是智能制造,下面是一些智能制造的復雜制造過程的圖。這是智能制造的十個領域,特別是新一代人工智能,包括相關的領域,航空航天的,也包括生物制造,都在里面,船舶、電力、材料。右邊是從1989年到2015年國際上在新一代人工智能領域的發展的初步框架。
新一代人工智能的國家戰略,美國人工智能已上升為國家戰略。從2013年提出來的,推動創人工智能的創新研究計劃。到2014年的1月,2015年,一直到CSIS發布國防2045,DARPA支撐美國第三次的抵消戰略,最后白宮成立人工智能委員會。特朗普提出了人工智能的發展倡議書,提出了幾個方面,現在我們國家在人工智能的領域發展得比較快,也引起了美國的關注。
這是中國新一代人工智能發展的路線圖,國務院關于積極推進互聯網+的行動計劃指導意見,一直到國民經濟和社會發展第十三個五年規劃綱要,到互聯網+人工智能的實施方案。人工智能2.0和1.0有一些實質性的區別,這里包括哪些方面?一個是從信息的新環境,還有新目標,包括可升級的新技術,從這幾個方面來描述中國的人工智能2.0。
新目標包括智慧城市、智能經濟、智能醫療、智能家具、智能駕駛等,可升級的技術有大數據智能、跨媒體智能、自主智能、人機混合智能、群體智能。這是人工智能2.0的五個方向,這也是科技部頒布的,去年發布的新一代人工智能的發展規劃,基本上就是圍繞著五個方面進行布局和部署。
可以說人工智能的發展引起了世界各個發揚光大和發展中國家的關注,不惜花重金來發展新一代的人工智能。現在各國都意識到,人工智能是開啟未來智能世界的鑰匙。未來科技的發展戰略制高點,誰可以掌握人工智能,誰就會成為未來核心技術的掌握者。
智能制造是智能技術,特別是新一代人工智能技術,在制造全生命周期的應用當中涉及的理論方法、技術和應用。智能制造的另一種說法,從制造的整個過程,從設計、加工、管理、銷售,一直到報廢處理的全過程。這里面要達到制造業智能增長,包容性增長、可持續性增長的目標。
智能制造技術,涉及到的各種理論和方法。從技術角度來看包括幾個環節,包括智能設計、加工、操作、控制、工藝規劃、調度管理、物流、裝配,還有檢測、診斷。
人工智能的基礎是大數據,涉及到人工智能的應用領域包括移動互聯網、物聯網、車聯網、GPS、醫學影像、安全監控、金融、電信等各個領域,包括數據的采集、存儲、推理、分析,一直到應用各個方面這就是關于機器學習的最簡單的框架,我們說,從機器學習的角度來講,我們就只有數據,從數據里面,我們希望通過訓練能辨識出一個模型,這個模型怎么辨識,是動態的還是靜態的?
從數據到模型的過程,用到的就是算法。有了模型以后,進一步的還得到了更多的數據,所以這個數據和模型之間是一個交互的,這是一個簡單的優化過程,就是二次優化。從機器學習的角度來說,機器學習包括三類,一類就是監督式,還有一類是無監督的,最后一個是半監督的。
什么是監督式的?從數學的角度來看,系統有輸入、有輸出,有X,有Y,你來辨識非線性過程。什么是無監督?系統里面只有自帶的X,沒有Y,還有一類是半監督的,就是既包括輸入也包括輸出,怎么用這三個學習辦法進行模式識別,并且進行系統辨識和應用?這一塊講了機器學習方法在風機發電里面的應用,我們課題組提出來了密集連接的神經深度網絡。
風力發電里面怎么用深度學習,運行維護費用占得很高,大概有10%到15%。在海上風力很大的時候這個比例高達20%。所以我們如何降低運行和維護成本就成為了關鍵,研究風力發電診斷的意義在哪?因為它的成本很高,每一次維修都需要花大量的成本,搞智能故障診斷和健康管理有非常大的意義。不僅是在風電領域,當然在高鐵、飛機上,都可以用,方法是通用的。
我們的目的就是降低維護成本,提高風力發電機組的安全性和可靠性。這是我們做的魯棒SVM,輸入數據帶噪聲,輸出數據也帶噪聲,這個時候如何建立一個魯棒SVM模型,它有更好的魯棒性和抗意外性,SVM的敏感性要更好。檢查一個風電機組有沒有故障的核心,就是看分工的曲線,輸入和輸出看有多大的風。如果說分工的曲線是正常的,說明你的風機沒有問題,如果出了問題肯定是風機有故障了,再用機器學習的方法進行故障定位,原因的分析也可以找到。
理論上是這樣的模型,我們建立一個魯棒SVM,就是右邊加了一個robust,過去是沒有的,這樣的模型怎么解?我們變成機會約束。再把機會約束一轉成二階錐規劃,這個結果是2012年的文章。這是一個擬合的效果,用我們的方法擬合的,還用魯棒SVM擬合的效果。基于半監督學習的故障診斷,剛才說了,監督學習只有X跟Y,有輸入有輸出,半監督的,有些數據是有X和Y的,還有一些樣本只是還有自變量,沒有輸出。這個問題也非常有用,半監督學習能夠通過對數據的分布特征找它分布特征的規律,可以利用有標簽的樣本和無標簽的樣本信息獲得單一的有監督學習和無監督學習的算法就是說它可以對數據的分布特征進行研究,然后來提高我監督學習算法的效果。
我們提出了什么?我們做機器學習的時候都要做這個,就是聚類假設,屬于同一個聚類的樣本,屬于同一類別的概率更大。進一步演化以后,就是低密度分離假設,最后是高分離概率假設。我們建立了一個模型,這個叫做regression,這個概率最大,概率是原理分類面,最后我們把這個模型分析出來,然后給出解。最后轉化成一個二階錐規劃,我們還是用交替優化的方法,就是兩個變量,我固定一個另外一個。下面是另外一個應用,半監督學習方法的應用。
最后我介紹一點強化學習,強化學習可以追溯到19世紀巴甫洛夫的條件反射,到20世紀80年代由Barto等人發展成理論,廣泛應用于人工智能、機器學習和自動控制領域,基本思想就是從與環境的不斷交互試錯中學習來校正系統的行為。我們要給一個行為,并且得到了一個周期里面的收益,這就是馬爾科夫決策過程。
那么在國外,這樣的模型可以說用的是非常廣,在美國MIT,最好的研究組也在研究這個案例。包括阿爾法狗,其實都是這樣的模型這是我們優化的目標,使得我的期望最大,就跟開車一樣,你開車控制的是剎車和油門,你的狀態是車的速度和車的位置,你踩了油門以后車到了另外一個位置,然后你再判斷你走得對不對。在另一段里重新做決策,這一類問題就是序貫決策問題。如果從這個狀態到下一個狀態的轉移概率也可以求出來的話直接就可以求解了,但是我們的問題是沒有轉移概率,所以就提出來了強化學習的概念。就是在每一個周期的時候,有一個狀態,我就對應一個行為。
這個E就是數學期望,一般是大于0小于1,這包括兩個部分,一個叫做動作函數,一個叫做價值函數,對應的右邊就是兩個網絡,一個叫做評價網絡,還有一個叫做策略網絡,我們先求里面的過程,這個叫做評價網絡,后面的這個網絡就是策略網絡。通過這兩個網絡的交互迭代,最后找出解。
下面我講一下海洋的應用,這是深海機器人,就是我做的一個自然基金的一個儀器項目,控制水下機器人,把它用上去了。現在的控制方法還沒有人這么做,他們都是傳統的控制。這個機器人剛剛造出來,這個機器人今年要做海試,就是海底噴火山。深海的意義,海洋現象是20世紀海洋科學界的重大發現之一,主要的挑戰在這里。這個噴口是干什么就是地球里面有一些地質構造的斷裂帶里面有破損的,包括金銀銅鐵,現在還有一個極端的生物環境,我們的目標就是找到這個噴口,找到海底噴火的地方,就得靠水下機器人去找。
過去水下機器人不帶智能,只是船來控制,通過控制船,自己也能動。我們做的機器人就是加上了智能,有兩個意義,第一怎么做路徑規劃,第二怎么實時控制我的機器人,一步一步逼向我的目標。只有兩個科學問題,就是如何找噴口,第二是如何控制機器人。這是AUV,找噴口,這就是MDP建模,我們可以連接為部分可觀測的MDP,里數據,有觀測數據,嚴格地講有些信息是隱藏的。
我們通過POMDP的模型,這里的問題是已知機器人當前的位置和狀態,當前的位置、速度,包括檢測到的噴口信息、濃度,包括化學傳感器的信息。怎么根據我現在的狀態來更好地找到下一步的路,這就是優化問題。最后我找到了最終的噴口,這就是MDP,你根本不知道轉移概率,但是其他的狀態我都可以通過傳感器感受到,就是在已知狀態不知道概率的時候,這個模型是最管用的。
這是設計的網絡,一個叫做策略網絡,一個叫評價網絡。這就是牛頓法,在第七個周期里面的收益,這是T+1周期往后的收益,W是權重,原來是分線函數,現在是線性函數,這是迭代的補償。另外是逼近網絡的更新步驟,它的原理就在這里,這里有一個網絡,綜合在一起又是一個網絡,我最終找的就是最終策略。
這是仿真的結果,基于強化學習的仿真結果,有的時候我們把歷史數據用上,效果會更好,更能快速地找到優點。還有一個例子是控制水下機械,它可以控制機器人,而且這樣的控制方法不需要基于機理模型,將來也可以把這個方法和基于機理模型的方法結合在一起,效果比基于強化學習的會更好,這是一個優化問題。這里有三種控制模式,一個是深度控制、曲線控制還有海床控制。深度控制就是固定深度,這個屬于避障控制,那就是海底的造型很特別,要始終跟海底保持距離。第二就是海床追蹤,海床的變化比較平穩,沒有明顯的趨勢變化,但是跟海底的距離幾乎是恒定的。這是我們常用的幾種AUV,采取的傳統控制辦法,PID、模型預測控制,嚴格依賴于精準的模型,AUV控制當中很難滿足,模型涉及到海水,那個東西一個地方走一遍,所以精準的模型是有問題的。那么我們提出了這樣的方法,大家看我們怎么來選狀態,速度、位置,什么是動作,比如說發動機的轉速,對于三種類型的控制問題,關鍵信息是什么,狀態是什么,獎勵是什么,我們都做了研究,大家都可以找到論文。剩下的兩個網絡一個是評價網絡,另外一個是策略網絡,這個評價網絡就是已知X和K,必須假定策略是已知的,實際上你是沒有策略的,所謂的策略網絡就是一個狀態對應著一個行為,我找最好的策略,使得這個東西最好。一個是評價網絡的權重更新算法,還有一個是策略網絡權重的更新算法,有了這兩個算法我們就可以做仿真計算,當然還有一些其他的分析,理論分析就不講了,特別是關于解的穩定性、敏感性的分析,也有理論上的推導。這是我們的方法,跟其他的方法,比如說在超調量和時間反映因素上,我們好于傳統的LKI,線性二次積分,比另外一個是NMPC,比它的時間要好。這是我們算法跟其他算法的對比分析。
隨著大數據時代的到來,基于大數據挖掘與機器學習的方法成為近年來的研究熱點,包括建模問題,優化問題,各種智能方法,挖掘內在的規律,實現各系統的智能的充分發揮。另外就是說人工智能已經上升到了國家戰略高度,數據是關系到國家安全的重要資源,大數據和人工智能的結合,將對國家的經濟、社會、文化產生深遠的影響地也會改變人類生產生活方式,謝謝。
(審核編輯: 智匯小新)
分享