You need to enable JavaScript to run this app.
导航
Workspace功能总览
最近更新时间:2023.02.10 20:00:02首次发布时间:2022.10.30 09:50:22

在Dashboard中记录和复现研究过程

Dashboard基于JupyterHub实现,一方面,作为概述介绍,通过Markdown文档能够记录在Workspace中研究的全部过程,包含数据、工作流以及操作步骤和结果等,能够方便快速的让他人了解此workspace中的全部研究内容;另一方面,通过提供实时的交互分析环境,能够调用Notebook和工作流运行的API,能够快速复现在workspace中开展的工作。

将数据上传并存储到存储桶中

Bio-OS中每个Workspace均对应一个tos对象存储桶,此存储桶信息可以从环境信息中查看,Workspace对应的存储桶可以存储一下内容:

  • 用户自身的样本数据,可通过页面、命令行等方式上传

  • 工作流运行过程中输出结果、运行日志等信息

  • Notebook 文件,如.ipynb文件

注意:在Notebook中分析中产生的数据不会存储到存储桶中,而是默认存储在Notebook所在Server本地,如有需要,需手动将数据复制到存储桶中。

在数据模型中组织和管理数据

Bio-OS提供数据模型功能,能够在平台以数据表格的形式组织、展示和整理数据,

  • 能够将用户的样本数据只作为数据表格,作为工作流的输入,简化批量任务投递的操作

  • 能够将工作流的输出结果数据写回至表格,一方面,实现了输入、输出数据的统一展示,另一方面输出数据能够作为下一个步骤运行的输入

  • 实体数据表格中每一行均表示为一个实体,每个实体均有且有唯一实体ID(第一列数据);实体数据表格中每一列为每个实体的属性值

  1. 实体数据模型

实体数据模型可以分为实体数据表格和实体数据集合表格。实体数据表格中,第一列的实体ID对应一个数据实体,数据实体以链接的形式链接到云中真实存放的数据集信息。

实体数据集合表格中,第一列的实体集合ID对应一组数据实体组成的集合,集合内容为数据实体ID组成的数组。注意:

  • 实体数据集合表和实体数据表一一对应,如sample实体表和sample_set实体集合表一一对应

  • 实体集合表本身没有数据实体链接,而是会用过列名称索引到实体数据表中的数据


  1. Workspace级别数据模型

Workspace级别的数据模型,顾名思义,代表此数据表格中的内容为整个Workspace内所有样本数据均需要的数据,您可以在这里上传如参考基因组数据、Docker镜像等。

  1. 文件数据管理

文件数据管理中的文件列表是存储在tos对象存储桶中的一些文件数据,文件数据可用于在notebook插入读取或者在实体数据模型中进行关联。

使用Notebooks实时分析数据

Bio-OS集成了Jupyterhub开源组件,为用户提供了进行生信数据实时交互分析环境。当前阶段为用户提供默认配置(2C4G)的server资源,用户可以在运行资源配置中选择三挡资源配置以启动Notebook。

使用工作流简化生信工作流批量分析

工作流模块能够提供灵活、便捷的工作流导入、查看、配置、投递全部操作,此外与数据模型结合使用,能够将工作流的输入数据、输出数据快速组织起来,实现生信数据的高效管理。

在分析历史页面查看任务分析过程及错误

Bio-OS分析历史页面是将样本数据选择某条工作流进行分析的历史记录,用户的一次投递视为一次任务的分析,一次任务的分析包含多个样本批量分析(即存在多条工作流批量运行),其中每条工作流的运行可能又会拆分成多个步骤的运行。在分析历史中能够精确、细粒度的查看投递、工作流运行、task运行三个级别的历史记录。

当分析过程出错时,能够根据task级别日志和工作流级别日志能够进行故障排查工作

此外,分析历史中能够记录本次工作流运行的配置信息(含输入样本数据、参数配置),能够点击直接跳转至当时配置页面,方面进行快速复现此次分析。

在环境管理页面切换关联集群

在Workspace的环境管理选择工作流或者Notebooks所需要运行的集群(需提前在集群管理中纳管集群)。