完美体育·种业大语言模型“丰登”已具有品种选育、农艺性状、栽培技术和推广区域四大核心领域的解释和回答能力。可通过自主学习,发掘生物、遗传、气象及土壤间的复杂关联,形成新的知识结构。
科学高效的生物育种对于粮食安全及经济效益意义重大,为填补中国在AI育种领域的技术空白,4月28日,上海人工智能实验室联合崖州湾国家实验室和中国农业大学发布首个种业大语言模型“丰登”(SeedLLM),希望借此降低育种学习门槛,提升从业者的研究和实践效率。
由于作物及畜类品种的多样性,长期以来完美体育,育种信息缺乏统一平台,数据知识“孤岛式”分布,为育种知识普及学习带来壁垒。同时,由于生物育种涉及生物学、遗传学、气象学、土壤学等多学科交叉,专业人员在从事育种工作时不得不跨越众多领域的文献、数据,甚至需要编写代码进行数据访问,工作效率受到极大限制。
为此,上海人工智能实验室联合团队提出大模型赋能生物育种的思路,在上海人工智能实验室研发的大语言模型“书生·浦语2.0”(InternLM2)的基础上,科研人员注入科技文献、产业实践报告等海量专业数据,训练出具备理解和分析能力的种业大模型,把“丰登”训练成初具“AI研究员”潜力的大模型,它可通过自主学习,发掘生物、遗传、气象及土壤间的复杂关联,形成新的知识结构。目前,“丰登”已具有品种选育、农艺性状、栽培技术和推广区域四大核心领域的解释和回答能力。
上海人工智能实验室介绍,相较于国内外主流大语言模型,“丰登”专注于生物育种。当前,育种领域涉及的知识资源包括学术文献、田间日志及政府公示等,这些知识资源呈现分散状态。科研人员深度挖掘相关知识,将文本信息中提炼出的知识通过大模型技术手段汇聚到模型权重中,再将分散在不同文献中的同一知识点整合归纳,最终使育种专业知识以结构化方式呈现。基于“书生·浦语2.0”的基座模型能力,科研人员不仅对“丰登”进行了作物学、农学和遗传学等育种专业学科的知识训练,还整合了生物学、遗传学、气象学、土壤学等多学科知识,提示词的合理运用让“丰登”对相关领域间的知识“融会贯通”。
此外,“丰登”使用自然语言对话接口,降低使用门槛,用户可直接提出问题并迅速获得易于理解的信息。相较于传统的文献数据库查询和网络搜索,多轮对话方式确保了信息的实时性和高效获取。“丰登”未来还可实现语音输入,进一步降低使用门槛,并在大语言模型基础上引入图像分析、多组学分析和决策育种能力,针对育种工作场景进一步提升使用效率。
为了全面评估大模型在科学育种工作中的性能效用,上海AI实验室联合崖州湾国家实验室和中国农业大学共同组织了国际首个种业领域的标准化人工评估评测。组织育种专家制定了大量水稻育种专业问题及对应标准答案,涵盖品种选育过程、农艺性状描述、栽培技术推荐和历史推广区域查询四大任务,并以此构建首个种业大语言模型评测基准,为AI兴农研究提供客观能力参考。通过国内各级农业部门认定的水稻品种已超2万个,“丰登”已率先开放水稻领域知识测试接口。
据上海人工智能实验室消息,目前,隆平高科、正大集团、中国科学院完美体育、中国农业科学院、上海市农业科学院、广东省农业科学院、华中农业大学、华南农业大学、复旦大学等机构已加入“丰登”测试,大模型助力科学育种正在真实应用场景下得到验证并优化。