P

PotatoEcho

AI超車人類知識?生物學家的「苦澀教訓」如何顛覆AI發展!

原视频:📺 YouTube发布日期:2026-06-12科技趨勢

📋 Brief

這支YC Paper Club的影片深入探討了AI前沿,從語言模型的自我學習到生物學應用,以及解決AI核心效率問題的新思路。如果你想知道AI如何跳脫人類數據的框架,實現更高級的智慧,這集絕對不能錯過!


⏱️ 內容分段導航

時間段 內容摘要
00:08 - 00:49 開場介紹本期研討會的主題與主講人,強調應用與新興AI領域。
00:49 - 02:35 討論記憶在LLM中的重要性,以及AI在不受人類偏見下自我學習的巨大潛力。
02:35 - 04:35 分析AI發展的兩大核心挑戰:「每樣本智能」與「每瓦智能」,並探討反向傳播的替代方案。
04:35 - 05:42 分享AI在生物學、機器人等領域的創新突破,並徵集社群對Club發展的建議。
05:47 - 07:06 介紹AI應用於生物學,特別是蛋白質研究,並引入「苦澀教訓」的核心概念。
07:06 - 09:00 說明AI領域「苦澀教訓」的含義:大規模數據與運算勝過人工設計的領域知識。
09:00 - 11:59 詳述如何將蛋白質視為一種「語言」,透過大量演化序列訓練大型模型。
11:59 - 15:15 揭示蛋白質AI模型規模化定律的成功,以及宏基因組數據在突破模型性能瓶頸上的關鍵作用。

📖 詳細內容

01|AI研究的前沿探索:記憶、偏見與通用智慧

核心觀點: 這次Paper Club一開始就點出AI研究正在往許多不同領域深入,從生物學應用到形式驗證。尤其是在大型語言模型(LLM)的發展上,如何讓模型擁有更佳的記憶能力,以及擺脫人類數據固有的偏見,透過AlphaZero式的無偏自我學習,是我們邁向通用人工智慧(AGI)的關鍵。討論中提到,純粹依賴人類生成的數據(H)可能限制模型探索完整的解空間(F),無法觸及F-H的未知領域。

重要原話:

"I think that alpha zero unbiased by um humans meandering is uh the way we'll get to much more intelligent systems, maybe even dare say agi." (我認為不受人類影響的AlphaZero式無偏學習,是我們邁向更智能系統,甚至可能通用人工智慧(AGI)的途徑。)

個人感受: 聽他們提到AlphaZero這種不受人類限制的學習方式,我感覺這真的很顛覆!我們總以為AI需要大量人類標註的數據才能進步,但AlphaZero告訴我們,擺脫這些束縛,反而可能發現人類從未想過的方法。這讓我對AI的未來潛力充滿期待。

延伸思考: 如果AI真的能脫離人類經驗的框架,純粹透過自我探索來達到通用智慧,那它會如何重新定義我們對「智慧」的理解?人類在其中的角色,將從「導師」轉變為「觀察者」嗎?

可參考的行動: 在自己的工作或學習中,試著從一個完全陌生的角度去解決一個熟悉的問題,不要受限於過去的經驗或既定的做法,看看能否發現新路徑。


02|AI效率的雙重挑戰:每樣本智能與能耗效益

核心觀點: AI的進步不僅是模型變大,更重要的是如何從每個數據樣本中提取更多的智能(intelligence per sample),以及如何提高能源使用效率(intelligence per watt)。演講者指出,目前的In-Context Learning (ICL) 在樣本增加時性能並非單調提升,反而可能遇瓶頸。此外,他懷疑傳統的反向傳播(backprop)是唯一或最佳的學習機制,鼓勵探索如SPSA等替代方法,以模仿大腦更高效的學習方式。

重要原話:

"I think this is like the two major problems left in my opinion are intelligence per sample, intelligence per watt." (我認為目前剩下的兩個主要問題是「每樣本智能」和「每瓦智能」。)

個人感受: 看到他們把AI的未來挑戰精煉成「每樣本智能」和「每瓦智能」這兩個詞,我覺得很精準。尤其提到人腦的學習效率遠高於現有AI,這讓我忍不住想,是不是我們現在的路子還不夠「生物化」?

延伸思考: 我們常常只關注AI模型最終的表現,卻忽略了其訓練過程中的資源消耗。如果AI的能耗問題沒有好的解決方案,其大規模應用可能會帶來新的環境挑戰。這也提醒我們,永續性應該成為科技發展的一個重要維度。

可參考的行動: 下次在選擇AI工具或設計模型時,除了看性能指標,也多考慮一下其訓練所需的數據量和能耗,思考如何用更少的資源達到類似甚至更好的效果。


03|生物學的「苦澀教訓」:用AI解讀蛋白質語言

核心觀點: AI領域的「苦澀教訓」——即通過大規模數據和運算來實現通用學習,而非依賴人類專家知識——現在正強烈影響生物學研究,特別是在蛋白質領域。影片揭示,透過將蛋白質序列視為一種由20種氨基酸組成的「語言」,可以訓練大型語言模型(如BERT風格的Transformer)來預測被遮蔽的氨基酸,從而讓模型自主學習蛋白質的複雜結構與功能,而無需任何人工輸入的生物學知識。

重要原話:

"Across the past 70 years of AI, methods that win are methods that are general that sort of exploit really fundamentals of like scaling compute and data as opposed to methods that sort of handgineer human domain, human domain knowledge." (在過去70年的人工智慧發展中,勝出的方法是那些通用型、能利用規模化運算和數據基礎的方法,而非依賴人類領域知識的手工工程方法。)

個人感受: 聽到「苦澀教訓」在生物學領域也奏效,我感覺這是一個大膽的嘗試。生物學是這麼複雜的學科,過去總覺得需要很多專家智慧才能理解。現在AI告訴我們,只要給它足夠的數據和算力,它自己就能找到規律,這既讓人興奮,也讓人對未來充滿好奇。

延伸思考: 如果這種「數據驅動,而非知識驅動」的模式能在生物學中廣泛成功,那麼對於新藥開發、疾病診斷,甚至設計全新的生物材料,將產生革命性的影響。這會不會讓我們對生命的理解達到一個前所未有的層次?

可參考的行動: 了解一下蛋白質的基本知識,例如它的構成和摺疊方式。這會幫助你更好地理解AI如何將生物序列「語言化」,並思考這種跨領域的思維模式在其他學科的應用。


04|蛋白質語言模型的突破:宏基因組數據的決定性力量

核心觀點: 蛋白質語言模型(如ESM-Cambrian)在模擬語言模型規模化定律的過程中取得重大突破,證明大規模數據是推動模型性能持續提升的關鍵。過去的模型因數據量不足而遇到瓶頸,但ESM-Cambrian透過引入高達28億個宏基因組數據(從土壤、海洋、人體腸道等環境中測序得到的未知微生物序列),成功讓模型在未經任何蛋白質結構知識訓練的情況下,學會預測長距離蛋白質接觸,持續攀升性能曲線,顯示數據規模化壓倒一切。

重要原話:

"their fix for this wasn't really like they came up with like a really clever inductive bias in the architecture... but really it was just data scaling, right? They... pushed that to 2.8 billion by pulling largely in metagenomic data." (他們解決這個問題的方法,並不是真的設計出一個巧妙的歸納偏誤架構……而實際上就是數據規模化,對嗎?他們……透過主要引入宏基因組數據,將數據量提升到了28億。)

個人感受: 這段讓我對數據的重要性有了更深的體會。以前我可能比較關注演算法的精巧度,但這案例證明,在某些時候,數據的量級突破才是真正的遊戲規則改變者。尤其是宏基因組數據這種「從地球各個角落撿回來的數據」,感覺很有趣,也充滿了未來感。

延伸思考: 這種透過大規模「非傳統」數據來源來突破性能瓶頸的策略,對於其他數據密集型領域(例如氣候科學、材料科學)是否也具有借鑒意義?我們是否還有很多「數據礦藏」尚未被發現和利用?

可參考的行動: 思考你所在的領域是否有未被充分利用的「數據寶藏」,例如來自邊緣設備的傳感器數據、公開但分散的歷史記錄,這些都可能是未來突破的關鍵。


💎 精華收穫

這次Paper Club讓我們看到AI發展的幾個重大趨勢:一是透過自我學習超越人類偏見,朝向更通用智慧邁進;二是強調提升AI的「每樣本智能」與「每瓦智能」,而非盲目追求規模;三是印證「苦澀教訓」在生物學領域的威力,特別是透過海量宏基因組數據,讓AI能自主解讀蛋白質的複雜「語言」。這一切都指向一個未來:數據規模化和通用學習機制,將是引領下一波AI浪潮的真正力量。


由 PotatoLearning Hub 自动生成

💬 讨论区