网页解析插件,可获取和解析 url 链接下的标题和内容。支持用户快速提取和检索网页、pdf等内容中有价值的信息,接入模型列表可高效满足广泛的业务需求。
插件名称 | 组件说明 | 默认限流 | 计费说明 |
---|---|---|---|
网页解析 |
| 1QPS | 限时免费;使用插件可能产生模型更多 tokens 消耗 |
注:当前网页解析插件暂不支持与其他插件同时开启使用。 |
可高效满足广泛的业务需求,无论是内容聚合、市场分析还是自动化报告生成,本插件都能提供强大支持,接入大模型可助力业务决策和信息整合
您可在控制台的直接创建带网页解析插件的应用,无需自己实现插件调用代码。详情请查看 零代码应用操作指南。
后续您可通过应用(Bot) API 调用已添加网页解析插件的零代码应用,详情请查看 Bot API 文档 与 Bot SDK 文档。
您也可以自行大模型调用插件的代码,下面是示例代码。
适用于不支持Function Calling的模型(可用排除法查看模型是否支持Function Calling调用的模型),下面是示例代码。
需安装arkitect
pip install arkitect --index-url https://pypi.org/simple
from typing import AsyncIterable, Union import asyncio from arkitect.core.component.llm import BaseChatLanguageModel from arkitect.core.component.llm.model import ( ArkChatCompletionChunk, ArkChatParameters, ArkChatRequest, ArkChatResponse, Response, ) from arkitect.core.component.tool import LinkReader, ArkToolResponse from arkitect.telemetry.trace import task # 替换为您的推理接入点 https://www.volcengine.com/docs/82379/1099522#%E8%8E%B7%E5%8F%96-endpoint-id endpoint_id = "<YOUR ENDPOINT ID>" def prepare_prompt(link_resp: ArkToolResponse) -> str: prompt = "以下内容为用户输入网页及相关内容:" for url_data in link_resp.data.get("ark_web_data_list", []): prompt += f"网页链接:{url_data.get('url', '')}\n网页Title:{url_data.get('title', '')}\n网页内容:{url_data.get('content', '')}\n\n" prompt += "请总结并输出以上网页内容" return prompt @task() async def default_model_calling( request: ArkChatRequest, ) -> AsyncIterable[Union[ArkChatCompletionChunk, ArkChatResponse]]: parameters = ArkChatParameters(**request.__dict__) llm = BaseChatLanguageModel( endpoint_id=endpoint_id, messages=request.messages, parameters=parameters, ) if request.stream: async for resp in llm.astream(): yield resp else: yield await llm.arun() @task() async def link_reader(url: str) -> AsyncIterable[Response]: link_resp: ArkToolResponse = await LinkReader().executor(parameters={"url_list":[url]}) prompt = prepare_prompt(link_resp) request = ArkChatRequest( # 替换模型为您需要使用的模型,https://www.volcengine.com/docs/82379/1330310 model="doubao-1-5-pro-32k-250115", stream=True, messages=[{"role": "user", "content": prompt}], ) async for resp in default_model_calling(request): print(resp.choices[0].delta.content, end="", flush=True) if __name__ == "__main__": # 替换为您需要解析的网页地址 url = "https://www.toutiao.com/" asyncio.run(link_reader(url))
启动方式
# 替换为您的方舟API Key https://console.volcengine.com/ark/region:ark+cn-beijing/apiKey?apikey=%7B%7D export ARK_API_KEY=<ARK_API_KEY> python3 main.py
结果预览
该网页内容丰富多样,涵盖众多领域资讯: 1. **时政要闻**:探讨总书记强调“经济大省挑大梁”原因;*** 2. **科技动态**:直击“星舰”第八次试飞现场情况;*** 3. **财经消息**:美股下跌英伟达市值蒸发、欧洲央行降息、《哪吒 2》票房等财经数据。 4. **生活常识**:探讨早晨吃水煮鸡蛋对身体的影响,尤其对肝不好人群的影响。 5. **企业动态**:滴滴四月份调整政策,*** 6. **国际局势**:乌方称泽连斯基没给特朗普写信,***