为满足用户数据开发、数据探索场景提供的交互式开发环境。 Notebook 基于开源的 Jupyterlab 定制化开发,支持使用 Python、Markdown 语言、引入第三方库完成数据开发以及算法开发并且发布成定时调度执行任务。
新建任务完成后,首次打开Notebook,需先配置环境启动信息:
其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。
参数 | 说明 |
---|---|
*选择Kernel | Notebook Kernel 是执行 Notebook 文件包含代码的计算引擎,比如 ipython kernel 执行 python 代码。 |
*计算资源组 | 支持选择公共计算资源组、独享计算资源组。 说明 Python Spark on EMR 的 Kernel 类型,仅支持通过独享计算资源组执行,且资源组 VPC 网络配置须和 EMR 集群网络配置保持一致。 |
*资源配置 | 您可根据实际需求进行配置,以 CU 为单位,默认配置 1CU(1CU = 1Core 4GB),下拉可选择更多规格的资源配置。 说明 其中 0.25、0.5 CU 规格,仅独享计算资源组支持选择。 |
Python on K8s Kernel 类型 | |
*镜像 | 仅支持选择默认镜像地址,预装了常用第三方库。 |
Python Spark on EMR Kernel 类型 | |
*关联实例 | Python Spark on EMR 的 Kernel 类型,支持下拉选择项目控制台中已绑定的 EMR 集群实例信息,项目支持绑定多个 EMR 集群,您可根据实际情况选择对应的 EMR 集群。绑定操作详见创建项目。 |
Spark 参数 | 输入任务执行环境中,所需要用到的 Spark 参数,可通过以下方式进行配置:
|
启动信息配置完成后,单击确认按钮,启动Kernel连接,待导航栏 Kernel 状态为 Idle 后,即代表启动成功,可进行后续的调试运行代码逻辑。
启动 Kernel 状态正常后,即可进入代码开发。目前已支持 Python、Markdown、Raw 三种语言。
您可以在当前的 cell 框中,输入对应语言的代码逻辑,以 Python 语言为例:
# 如何查看预装第三方包 # cell类型选择python,执行以下操作 !pip3 list # 如何安装第三方包 # cell类型选择python,执行以下操作,以安装library_name为例 !pip3 install library_name
示例代码 - 使用 plotly 画图
!pip3 install plotly import plotly.express as px df = px.data.iris() fig = px.scatter(df, x="sepal_width", y="sepal_length", color="species") fig.show()
参数:
在代码编辑器中,您可输入动态、系统变量参数等,如时间参数 ${date}、${hour} ,时间参数使用可参考:时间变量与常量说明。
您可在界面下方,进行业务日期的选择,便可在界面上方单击运行按钮,在查询时完成时间参数替换操作。
Cell 单元框功能按钮:
序号 | 参数 | 说明 |
---|---|---|
1 | 语言选择 | 支持 Python、Markdown、Raw 三种语言选择。 |
2 | Format Cell | 将书写代码格式化操作。 |
3 | New Cell | 添加一个新的 Cell。 |
4 | Copy Cell and Paste Below Cell | 复制并粘贴内容到当前单元框后面。 |
5 | Cut Cell | 剪切当前单元框。 |
6 | Paste Below Cell | 粘贴内容到当前单元框后面。 |
7 | Delete Cell | 删除当前单元框。 |
8 | Cell 框右键操作 | 单元框的更多快捷操作,可通过在 Cell 框中右键查看更多操作项。 |
说明
其中 0.25、0.5 CU 规格,仅独享计算资源组支持选择。
进入右侧边栏调度设置,配置节点调度相关属性。设置操作详见:调度设置。
任务所需参数配置、调试等操作完成后,将任务提交发布到运维中心离线任务运维中执行。
单击上方操作栏中的保存和提交上线按钮,在提交上线对话框中,选择回溯数据、监控设置、提交设置等参数,最后单击确认按钮,完成作业提交。 提交上线说明详见:数据开发概述---离线任务提交。
后续任务运维操作详见:离线任务运维。