智能体“自动驾驶”完成蛋白进化华大智造研发团队Nature子刊发布强化学习算法刺客pk加点_财经_资讯

智能体“自动驾驶”完成蛋白进化华大智造研发团队Nature子刊发布强化学习算法刺客pk加点

2023-11-10 10:11 浏览:53

7月20日，国际顶级学术期刊Nature子刊Nature Machine Intelligence在线发表了华大智造杨梦团队研究成果《Self-play reinforcement learning guides protein engineering》，发布了一款名为EvoPlay的算法模型。这也是华大智造团队在该杂志发表单细胞对比学习自监督Concerto算法后，时隔一年再度发表AI算法相关文章。

　　EvoPlay由“Evo”“Play”两个英文单词组合而成，前者意为进化，指蛋白质分子的功能进化；Play指的是博弈类搜索算法。EvoPlay算法模型就是借鉴围棋自博弈的方式搜索海量蛋白质突变空间，通过结合不同的功能或结构预测模拟器，像自动驾驶一样训练智能体完成指定功能增强的蛋白进化。

　　据悉，蛋白质的工程化设计和改造是基因测序仪的底层基础，基因测序仪的迭代升级离不开蛋白工程技术的突破。科学家们通过改造各种各样的蛋白质操纵DNA分子、读取酶催化的信号从而识别碱基序列。从华大智造测序仪试剂里用到的聚合酶、荧光素酶等各种工具酶，到更广范围的生物催化剂、生物传感器、治疗类抗体到生物燃料，都离不开对蛋白质的设计和改造。

　　大众熟知的AlphaGo是DeepMind最重要的AI模型之一。它是一个基于深度学习和强化学习的人工智能围棋程序。AlphaZero是DeepMind后续进一步发展的AI模型。它不需要任何人类的经验知识，只需要知道游戏规则便能通过自我对弈和强化学习从零开始学习并掌握多种棋类游戏，包括围棋、国际象棋和日本象棋，它以惊人的速度超越了世界上最强大的棋类引擎，并展示了一种通用的自学习方法，能够适应不同的领域和问题。

　　华大智造发布的EvoPlay模型便是借鉴了这种方法，并将其运用到了蛋白质设计领域当中，研究团队将蛋白质序列上每一个位点的突变当作是围棋中的每一次落子，将优化的最终序列当作是一局围棋的结束，通过自我对弈和蒙特卡洛树搜索在蛋白质序列空间中不断地搜索和优化序列，同时作者使用一个代理模型来为每一次位点突变进行奖励，最终成功生成了大量的具有特定功能的序列。

　　EvoPlay算法把经典的强化学习应用到了蛋白质设计框架中，不仅能够增强传统MLDE（Machine-learning-guided directed evolution，机器学习指导的定向进化）的采样效率，并能够结合最新的蛋白质结构解析模型（AlphaFold2）直接设计出带目标结构的氨基酸序列。EvoPlay既能够用于传统定向进化，也能够被纳入“从头设计”的理性设计框架中。

　　文章的通讯作者，来自华大智造研发团队的杨梦表示：“我们有理由相信在更多的理性机制分析以及更精密的结构代理模型的帮助下，EvoPlay的‘蒙特卡洛树搜索+神经网络’可以更好地结合‘从头设计’框架，从而为蛋白设计领域提供新的思路，也可以用来进一步优化基因测序仪里用到的各种工具酶。”

　　此外，EvoPlay模型已经进行了一些实践，比如说研究者已经利用EvoPlay前瞻性地设计了36个荧光素酶突变体，其中的29个变体已申请专利。EvoPlay在寻找起始库之外更高适应性突变体方面非常有效，并且可以与现有的工程流程相集成。同时，实践也证实了EvoPlay展示了其在高效设计高质量多肽上的性能，将适用于蛋白质-蛋白质相互作用、酶设计和药物发现等多种应用领域。

　　伴随着自动化生物实验室的蓬勃发展，以及微流控技术广泛用于分子筛选和进化实验室，更多的自动驾驶实验室（Self-driving Lab）即将出现。在生命科学和技术实验室中的各个环节，包括实验的执行、数据的收集和分析、实验计划的制定等，未来都可以由自动化系统和人工智能来完成，而不需要人类进行主动的干预或操作。智能体还可以通过LLM等工具整合外部知识，多轮迭代探索，连续学习，创造出满足人类需求的酶、抗体、小分子、基因序列甚至人造细胞。

打赏