You need to enable JavaScript to run this app.
导航
网页解析插件功能说明
最近更新时间:2025.03.22 14:44:42首次发布时间:2024.06.27 16:17:37
我的收藏
有用
有用
无用
无用

功能简介

网页解析插件,可获取和解析 url 链接下的标题和内容。支持用户快速提取和检索网页、pdf等内容中有价值的信息,接入模型列表可高效满足广泛的业务需求。

插件名称

组件说明

默认限流

计费说明

网页解析

  • 一次调用最多可解析 3 个 url 内容。
  • 支持网页、pdf、txt、csv、docx、doc、xlsx、xls、pptx、ppt、md、mobi、epub格式文件的内容获取。
  • 当前支持接入 Doubao 系列拥有Function calling能力的模型,详见支持模型

1QPS
60RPM

限时免费;使用插件可能产生模型更多 tokens 消耗

注:当前网页解析插件暂不支持与其他插件同时开启使用。

功能优势

  • 精准解析网页: 支持通过url 快速、准确地解析网页、pdf、txt、csv、docx、doc、xlsx、xls、pptx、ppt、md、mobi、epub格式文件的内容,可接入模型进行高效使用。
  • 高效操作流程:用户仅需提供url链接,即可完成网页的完整解析,无需繁琐复杂的操作步骤。

应用场景

可高效满足广泛的业务需求,无论是内容聚合、市场分析还是自动化报告生成,本插件都能提供强大支持,接入大模型可助力业务决策和信息整合

  • 市场分析: 可用于解析网站信息,帮助企业进行市场趋势调研和竞品分析,为市场定位和策略制定提供支持
  • 新闻聚合: 整合来自不同内容源的最新新闻信息,形成信息概览
  • 学习教育: 获取教育资料和学术文章,支持学习教育场景下的高效学习和研究

基本用法

通过零代码应用调用

您可在控制台的直接创建带网页解析插件的应用,无需自己实现插件调用代码。详情请查看 零代码应用操作指南
后续您可通过应用(Bot) API 调用已添加网页解析插件的零代码应用,详情请查看 Bot API 文档Bot SDK 文档

自行实现插件调用

您也可以自行大模型调用插件的代码,下面是示例代码。

适用于不支持Function Calling的模型(可用排除法查看模型是否支持Function Calling调用的模型),下面是示例代码。

需安装arkitectpip install arkitect --index-url https://pypi.org/simple

from typing import AsyncIterable, Union
import asyncio

from arkitect.core.component.llm import BaseChatLanguageModel

from arkitect.core.component.llm.model import (
    ArkChatCompletionChunk,
    ArkChatParameters,
    ArkChatRequest,
    ArkChatResponse,
    Response,
)
from arkitect.core.component.tool import LinkReader, ArkToolResponse
from arkitect.telemetry.trace import task

# 替换为您的推理接入点 https://www.volcengine.com/docs/82379/1099522#%E8%8E%B7%E5%8F%96-endpoint-id
endpoint_id = "<YOUR ENDPOINT ID>"

def prepare_prompt(link_resp: ArkToolResponse) -> str:
    prompt = "以下内容为用户输入网页及相关内容:"
    for url_data in link_resp.data.get("ark_web_data_list", []):
        prompt += f"网页链接:{url_data.get('url', '')}\n网页Title:{url_data.get('title', '')}\n网页内容:{url_data.get('content', '')}\n\n"
    
    prompt += "请总结并输出以上网页内容"
    return prompt

@task()
async def default_model_calling(
    request: ArkChatRequest,
) -> AsyncIterable[Union[ArkChatCompletionChunk, ArkChatResponse]]:
    parameters = ArkChatParameters(**request.__dict__)

    llm = BaseChatLanguageModel(
        endpoint_id=endpoint_id,
        messages=request.messages,
        parameters=parameters,
    )
    if request.stream:
        async for resp in llm.astream():
            yield resp
    else:
        yield await llm.arun()

@task()
async def link_reader(url: str) -> AsyncIterable[Response]:
    link_resp: ArkToolResponse = await LinkReader().executor(parameters={"url_list":[url]})

    prompt = prepare_prompt(link_resp)
    request = ArkChatRequest(
        # 替换模型为您需要使用的模型,https://www.volcengine.com/docs/82379/1330310
        model="doubao-1-5-pro-32k-250115",
        stream=True,
        messages=[{"role": "user", "content": prompt}],
    )

    async for resp in default_model_calling(request):
        print(resp.choices[0].delta.content, end="", flush=True)


if __name__ == "__main__":
    # 替换为您需要解析的网页地址
    url = "https://www.toutiao.com/"
    asyncio.run(link_reader(url))

启动方式

# 替换为您的方舟API Key https://console.volcengine.com/ark/region:ark+cn-beijing/apiKey?apikey=%7B%7D
export ARK_API_KEY=<ARK_API_KEY>
python3 main.py

结果预览

该网页内容丰富多样,涵盖众多领域资讯:
1. **时政要闻**:探讨总书记强调“经济大省挑大梁”原因;***
2. **科技动态**:直击“星舰”第八次试飞现场情况;***
3. **财经消息**:美股下跌英伟达市值蒸发、欧洲央行降息、《哪吒 2》票房等财经数据。
4. **生活常识**:探讨早晨吃水煮鸡蛋对身体的影响,尤其对肝不好人群的影响。
5. **企业动态**:滴滴四月份调整政策,***
6. **国际局势**:乌方称泽连斯基没给特朗普写信,***