“什麼意思?”
這回李導發現大家好像都是在幫忙解決問題,語氣都沒那麼沖了。
“你想想強化學習的學習機制,就是對輸入的文字做出一個輸出的動作來最大化最終獲得的獎勵”
卡納說到這裡就不說了,他賤賤的用眼神示意李導,叫他當捧哏。
李導看了差點氣死,但是處于學習的目的,他還是開捧了。
“那與這個又有什麼關系呢?”
“主要問題出在獎勵上,我看了下令和的設計,他給的獎勵太少了,反倒是懲罰程序一大堆”
“這對于人工智能來說就是,你給出診斷,錯了,要賠命,對了,什麼都不會發生”
“在開藥得到的獎勵極低且容易得到較高懲罰的時候,這個程序,它就會選擇擺爛”
“也就是所謂的,诶,我知道怎麼治,但是我就是不治,我就是玩”
“這和現實生活還挺像,治不好,要醫鬧,治好了,是你的本分”,卡納被自己逗笑了,“你這程序做到最後還開始反諷現實了,真有意思”
“那,要怎麼解決呢?加大獎勵力度?”李導虛心求教,畢竟他對這方面真的不是很懂,卡納才是這方面的強者。
“欸,兄弟,也給我個在李教授面前裝逼的機會”,軒宇用手肘戳戳卡納。
卡納聞言,後退一小步,把舞台讓給滿臉自信的軒宇。
“獎勵問題隻是其中的一部分,Ape-X很容易出現明明基線算的沒問題,但是實操起來就是不行的情況,你可以用double DQN算法加上連續獎勵”…
軒宇侃侃而談,安科兩眼一抹黑。
這特麼講的是個啥?
然後看上去就很令人智熄的卡納也過來摻和了一腳。
“你這個算法基線震蕩會很劇烈,容易崩掉,這還得調低學習率…”
我果然是個智障,是吧?
不過這裡這麼想的不止安科,還有抱着電腦差點哭出來的令和。
這講的是什麼?沒聽過啊!
被教授們降維打擊的他如同一條鹹魚,直接失去夢想。
“不過他這個明明算出來了,是不是可以通過改動…”,李導琢磨着問。
“我覺得可以,來我辦公室一趟,我那裡也有類似的模型,看看大家集思廣益能不能把這個東西調得更好”,軒宇招呼着往自己辦公室走,其他教授迅速跟上。
“令和,聽得懂嗎?”
軒宇突然回過頭。
令和一聽差點淚流滿面,他瘋狂的搖晃着自己的一頭白毛,表示自己完全沒聽懂。
“沒事,我那裡也有書,大概十本,你看完就懂了”
安科記得,軒宇的書架上,每一本書都有新華字典那麼厚,并且,它的長寬是新華字典的三倍。
希望令和人沒事。
“師兄,我去做畢業論文了”,見教授們提溜着令和遠去,安科急忙開溜。
“你不去聽?”被叫住的門師兄有些不解的回過頭。
“我還是個孩子,等我長大後再學習”
“哈?”
……
下午五點半,國科院旁邊農科院的天台。
略帶刺眼的陽光打在被烤了一天的滾燙天台上,暑氣蒸騰,地上的磚石被曬得發白,好像着了火。
遠處的大樹上,蟬聲時斷時續的出現,仿佛在預示着什麼,又宛若觀衆在搖旗呐喊。
天空沒有一絲雲,地上沒有一點風,在灼熱而扭曲的空氣中,濃濃的火藥味彌漫開來。
“你來了”,院長手握美洲大蠊,站在屋頂凸起的房梁上淡淡的說。
這個b裝得其實不錯,如果他頭發沒有那麼服帖的粘在臉上,臉上沒有那麼多汗,一副快要中暑的亞子,就更好了。
“我來了”,他的對面,李導拿着根黑白相間的鞭子立在另外一個正對院長的屋頂凸起上,熱浪對他沒有任何影響,他依然西裝革履,頭上的發膠都沒亂。
“你不應該來的”,院長眼神犀利的看着對面雲淡風輕的李導,手裡的美洲大蠊之刃慢慢擡起,棕色的刀刃在陽光下反射出刺眼的光。
“我已經來了”,李導嘴角上揚,冷笑一聲,也擡起鞭子,那根啞光的鞭子在空中劃過一道滿月般的弧度,似是下一秒就要抽碎什麼。
“你笑是什麼意思?”院長俯下身,挑釁式的舉起刀,熱得令人窒息的空氣仿佛在這一刻被冷氣凝固住。
“我笑是笑的意思”,李導站在原地沒動,漫不經心的接下他的話茬,并且用瞅你咋地的語氣回應着他。
大戰一觸即發。
“賣農科院的西瓜了,不是從他們大棚偷的,是新的研究成果,大熱天,觀戰和西瓜更配哦”
卡納這聲從喇叭裡傳出來的谷歌翻譯直接把氣氛給幹沒了,院長一轉頭,好家夥,天台上圍着他們站了一大群觀戰的人,在角落還有一大車西瓜,也不知道怎麼運上來的。
不僅如此,那個角落的溫度明顯低上許多,涼絲絲的冷氣從那裡飄來,搞得都不像是在同一空間裡。
趁院長分心的時候,李導掄圓了鞭子朝着院長就是一下,然後又是一套不講武德的連招,把院長打得哭爹喊娘。