提升科研可复现性:和鲸聚焦 AI for Science 全生命周期管理(和鲸科技)

今年三月,国家科技部会同自然科学基金委正式启动“人工智能驱动的科学研究(AI for Science)”专项部署工作。数据驱动的科学研究长期以来面临诸多困境,针对传统科研工作流中过度依赖人类专家经验与体力的局限性,AI4S 旨在基于科学数据算力支撑,通过人工智能的方法,进行计算密集高效迭代科学探索,为科研工作带来新的突破。

然而,随着科研范式的不断升级,传统基础设施已逐渐不能响应新兴 AI for Science 所需的软硬件支持。本文将聚焦“从数据、算法到模型的研究对象一站式全流程管理”,为各领域研究团队介绍数据科学协同平台 ModelWhale,以期为由人工智能驱动的科学研究提供助力。

一、科研期待与现状

科研期待:项目能有完整的生命周期,结项不是项目的终结,后续能够复用是项目生命的存续

实际情况:“作坊模式”而非“平台科研”,无法串联团队工作,成果复现效率低,项目生命周期短

对既往研究成果进行复用以赋予项目完整生命周期中的“复用”定义十分宽泛:可以是复用既往项目中的“中间成果”,譬如仅仅一个代码片段;也可以是“阶段性较为完整的成果”,譬如一个模型或搭建完成的一个镜像;还可以是对于某一类项目较为流程化、规范化的“研究范式”。

同时,此类“复用”是跨时间、跨人员的。然而事实上,由于项目研究成果缺少系统的归纳管理,加之项目组人员时有更替,随着时间的流逝,极容易忘却之前的研究成果,即使记起、有复用的打算,也很难将其翻找出来、辅以配套环境完整复现。即使大家都赞同,合理复用从长远能够节省大量时间,为避免当下的麻烦,项目进行过程中大部分相关人员还是会选择重头再来。

二、人工智能驱动科学研究的全生命周期管理

ModelWhale 聚焦从数据、算法到模型等研究对象的一站式全流程管理,从基础设施层面提升科学研究的可复现性,帮助营造有组织科研的良好生态。

项目从零生产

  • 01 多源数据接入、管理

数据驱动研究的地基便是数据本身,而部署于传统基础设施的数据驱动研究在数据管理上主要依赖的还是人力。而通过 ModelWhale,在保证数据安全的前提下,研究者们不仅能够创建不同类型的数据源,例如数据集、数据库连接、对象存储连接、NAS 空间、标注数据等,更是能够对相关数据源进行概述、标识、版本管理、评论及分发共享。ModelWhale 为研究者们提供的数据接入与管理功能就是要为数据驱动研究打好基础,令广大研究人员不必再为数据管理的底层繁复工作浪费时间。

提升科研可复现性:和鲸聚焦 AI for Science 全生命周期管理(和鲸科技)

NAS 空间内进行数据接入、管理、协作、分析等操作

  • 02 即开即用免装包

解决了数据问题便从零生产项目,而生产项目的第一步,往往是装包搭建环境。作为云端数据科学协同平台,ModelWhale 提供 Notebook 交互式、Canvas 拖拽式、CloudIDE 三种云端分析环境,并支持 Python、R 等数种编程语言,适配研究者们不同的编程需求与习惯;另外平台内已配备多种通用与特定学科镜像,新建项目时直接选定即可,真正做到即开即用——打开 ModelWhale,不需要配置任何环境,即可开始项目研究,省时省力。

提升科研可复现性:和鲸聚焦 AI for Science 全生命周期管理(和鲸科技)

快速新建 Notebook 开始研究

提升科研可复现性:和鲸聚焦 AI for Science 全生命周期管理(和鲸科技)

内置多种镜像供不同领域研究者使用

  • 03 版本管理支持非确定性问题探索

配置好环境即可开始数据分析、编程建模。一般的编程操作不必多说,选定相应的分析界面、算力、镜像开始即可。值得一提的是,数据驱动研究一般关注的是对于不确定性问题的探索,面对一个新课题,在最开始,往往并不能够明确哪种方法与手段可达成研究目的,我们需要多种多样的尝试。因此,ModelWhale 在这里能够提供的额外功能就是非 Git 逻辑控制的版本管理,不会太重,随时进行项目的版本比对与 Cell 级版本回溯,支持广大研究者们的从零探索。

提升科研可复现性:和鲸聚焦 AI for Science 全生命周期管理(和鲸科技)

版本比对与版本回溯,一键接受历史版本

  • 04 模型离线训练:解放精力、资源

另外,针对于数据驱动研究普遍存在的大型复杂计算任务,例如深度学习等,如前文所述,ModelWhale 首先支持将 NAS 目录作为数据源挂载进分析环境,从而实现对超大数据的分析研究,其次还支持模型的离线训练功能,即在电脑关闭后训练任务仍可继续,解放研究人员的时间与精力,同时提供训练结果可视化比对,协助高效进行模型的调参与选择。一句话总结,ModelWhale 将从各种细节缓解研究者们繁复的底层工作。

提升科研可复现性:和鲸聚焦 AI for Science 全生命周期管理(和鲸科技)

新建模型离线训练任务

  • 05 多人协作、团队协同

科学研究往往不是一个人的工作,对于复杂项目,组内进行多人分摊是很常有的事,而 ModelWhale 不仅关乎数据科学,更是云端协同创新平台,助力多人协作研究义不容辞。通俗来说,可以将 ModelWhale 想象为代码版的主流云文档软件,能够实现多人在线编辑同个项目,当然,为避免代码碰撞出现的 bug,需要生成版本才能将进展同步给他人。另外 ModelWhale 还具备任务规划的项目管理工具,负责人可以新建课题任务,并将其拆分成子任务进行分发,协同团队共同完成复杂的项目研究。最后,多人协作不仅着眼于某一项目组内部,我们也关注跨行业、跨领域的合作协同:运用 Canvas 功能,代码能力较弱的各领域理论学者可与数据科学家们同时工作,理论学者负责以功能模块搭建研究思路,数据科学家将其转化为实操代码,相辅相成、事半功倍。

提升科研可复现性:和鲸聚焦 AI for Science 全生命周期管理(和鲸科技)

项目管理工具,任务规划界面

提升科研可复现性:和鲸聚焦 AI for Science 全生命周期管理(和鲸科技)

用 Canvas 快速搭建分析流程

复用既往研究

  • 01 复用自定义镜像,不必人人造轮子

ModelWhale 本身内嵌了多种通用与特定学科镜像,新建项目时直接选定即可,那么若这些镜像无法满足当下研究需求又该怎么办呢?这时,研究人员可新建自定义镜像以匹配当前需求。但这并不表示项目组内的每个研究者在开始研究前都需要进行此步操作,一旦完成契合研究需求自定义镜像的新建,该镜像可以分发给组织内的任意成员进行复用,不必人人造轮子,除了负责新建镜像的第一人,组内其他研究者依然能够即开即用地复用既往已被搭建完成的研究环境。

提升科研可复现性:和鲸聚焦 AI for Science 全生命周期管理(和鲸科技)

自定义科研镜像,一键同步给项目组其他研究人员

  • 02 Notebook 代码库:代码片段轻松复用

ModelWhale Notebook 侧边栏中具备代码片段库功能,研究人员在既往研究中可预先收藏有几率被复用到的代码片段,后续进行新一轮研究时,即可在该代码库“我的收藏”中找到相应代码片段,此外,代码库中还包含了一部分官方代码,无论是“公有库”还是“我的收藏”,其中的代码片段都能够在新项目界面进行复用,直接插入即可。最后,代码库内的代码片段支持组织内的权限管理与分发,研究人员 A 收藏的代码片段可便捷复用至 B 的项目。

提升科研可复现性:和鲸聚焦 AI for Science 全生命周期管理(和鲸科技)

代码片段收藏与复用

  • 03 Canvas 组件:通过可视化规范 Flow 模板创建项目

ModelWhale Canvas 简单来说是基于可视化和模型驱动的理念,通过“拖拉拽”组件,完成应用模型的搭建。这样说有些大而抽象,实际操作中,Canvas 如何被应用到项目成果的复用过程呢?试想一下,当研究人员正进行一套较为繁琐但极其流程化、不需要创新、后续也还会经常进行的项目步骤时,可选择在 Canvas 中运用组件预构这一套步骤,将其封装成为常用的工作流 Flow,后续在别的项目中再次遇见这一套步骤,就可通过 Canvas 模板直接创建项目、确认组件流程,再转化为 Notebook,此时大框架已有,通过代码微调即可实现那一套繁琐且流程化的项目步骤,十分便捷。

提升科研可复现性:和鲸聚焦 AI for Science 全生命周期管理(和鲸科技)

通过模板创建 Canvas 项目,并一键另存为 Notebook

  • 04 算法库:实现对算法模型的整理、分享、复用

利用算法库,研究人员可以管理既往研究工作中已产出的算法模型,辅以文字说明,实现对这些算法模型的整理与分享,实际复用时,可将此类成果直接创建项目或模型服务,免去大量冗余的代码编写、模型训练工作,节省时间。此外,ModelWhale 算法库内也已整理部分常用算法,供研究者在进行通用数据分析工作时随时调用。

提升科研可复现性:和鲸聚焦 AI for Science 全生命周期管理(和鲸科技)

算法库功能对于算法模型的沉淀管理、一键复现

三、结束语

技术革命与顶层政策的引领下,科研界正给予人工智能越来越多的关注。数据科学协同平台 ModelWhale 科研版聚焦数据驱动研究的协同创新,是以推动 AI for Science 科研范式改革、加强有组织科研为己任的数字化基础设施:关注从数据、算法到模型等研究对象的一站式全流程管理,从基础设施层面提升科学研究的可复现性,帮助营造协作协同的良好科研生态;基于 FAIR 原则与开放科研理念为数据等研究生产资料提供安全、完善的公开共享门户在线交互工作台;异构融合、集约管控、按需分配、敏捷响应,强大的算力调度管理使个人电脑调用 LLM 大语言模型成为可能,也使算力资源在组织团队内发挥最大可用性;引入 ModelOps 理念,助力大模型全生命周期管理。

ModelWhale 科研版覆盖地球科学生物医学、人文社科等专业领域,且已将最佳实践落实于国家气象信息中心、中国自然资源航空物探遥感中心等国家级科研机构,希望能为每一位从事数据创新研究的开拓者及其团队提供支持。任何相关需求,都欢迎您搜索并进入 ModelWhale 官网注册体验、与我们展开交流。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

(0)
上一篇 2023年10月6日 上午10:29
下一篇 2023年10月6日 上午10:45

相关推荐

  • 科研项目分工主要贡献

    科研项目分工主要贡献 在科研项目中,分工是非常重要的一项工作。分工可以帮助我们将任务分配给合适的团队成员,让他们能够集中精力完成自己的工作,同时也可以确保整个项目能够按时按质完成。…

    科研百科 2024年11月10日
    3
  • 部门项目管理软件

    部门项目管理软件 随着现代组织的发展,部门项目管理软件变得越来越重要。这些软件可以帮助团队更好地管理项目进度,分配任务,跟踪项目绩效和成果,提高团队的效率和协作能力。在本文中,我们…

    科研百科 2024年7月28日
    46
  • 要不要丨参加大学科研项目

    要不要参加大学科研项目? 最近,是否想过参加大学科研项目呢?是否想了解如何利用大学科研项目来提高自己的学术能力,并拓展自己的研究视野呢?如果是这样的话,那么参加大学科研项目可能是一…

    科研百科 2024年8月5日
    40
  • 工程 档案管理系统

    工程档案管理系统是一种用于管理和维护工程项目档案的软件系统。该系统可以帮助项目经理和相关人员对工程项目进行跟踪,管理,分析和评估。本文将介绍工程档案管理系统的设计,实现,使用和维护…

    科研百科 2025年1月7日
    0
  • 会员管理系统的主要有什么功能(会员管理系统的主要有什么功能和作用)

    现在大多数商家都会实行会员制管理,日常生活中有很多常见的例子。逛街经常性的会听到推销人员说:你有没有会员卡呢?没有的话可以办理一张,可以积分、打折。他们为什么会这么说呢?道理很简单…

    科研百科 2022年9月16日
    184
  • 永定教育开新局丨永定实验幼儿园:党建引领筑堡垒 合作和谐育幼苗

    永定实验幼儿园 党建引领筑堡垒 合作和谐育幼苗 □ 李其明 郑小菊 永定区实验幼儿园创办于1956年9月,是“福建省示范性幼儿园”“中国学前教育研究会‘十三五’研究课题基地园”“龙…

    科研百科 2023年2月3日
    296
  • 山东:下好项目建设“三步棋”实现全周期管理

    脱贫攻坚期间,山东省实施产业扶贫项目2.56万个,形成扶贫资产233 亿元,累计实现扶贫收益42亿元,为促进贫困群众稳定增收、壮大农村集体经济发挥了重要作用。脱贫攻坚任务完成后,工…

    科研百科 2022年8月23日
    160
  • 基于devops理论需求分析阶段可以使用什么工具

    基于devops理论需求分析阶段可以使用什么工具 devops是一种软件开发和交付的方法,它强调软件的自动化,集成和交付。在devops的需求分析阶段,使用一些工具可以帮助您更好地…

    科研百科 2024年10月25日
    1
  • 施工进度保证措施

    施工进度保证措施 随着城市化进程的不断加快,建筑行业也面临着越来越大的挑战。如何保证施工进度是建筑行业中非常重要的一个问题。为了确保施工进度,我们采取了一系列的措施,下面是具体的介…

    科研百科 2024年5月23日
    60
  • 围场县电子政务系统建设采购项目招标公告(围场县政府采购招标网)

    项目名称:围场县电子政务系统建设项目 机构项目编码:HB2019012010020006 项目联系人:王岭 李树锋 项目联系电话:0314-7883999 采购人:中共围场满族蒙古…

    科研百科 2022年7月4日
    148