首页/后端开发/web-content-fetcher
W

web-content-fetcher

by @shirenchuangv1.0.0
0.0(0)

给定一个URL,提取网页正文并转换为干净的Markdown格式,保留标题层级,方便内容处理。

Web Content ExtractionMarkdown ConversionURL ProcessingBackend UtilityGitHub
安装方式
npx skills add shirenchuang/web-content-fetcher --skill web-content-fetcher
compare_arrows

Before / After 效果对比

1
使用前

从网页提取正文信息复杂,常包含广告和无关内容。

使用后

给定URL,返回干净Markdown格式正文,保留标题层级,高效准确。

description SKILL.md

web-content-fetcher

Web Content Fetcher — 网页正文提取 能力说明 给一个 URL,返回干净的 Markdown 格式正文,保留: 标题层级(# ## ###) 超链接(文字) 图片() 列表、代码块、引用块 提取策略(三级降级) URL ↓ 1. Jina Reader(首选) web_fetch("https://r.jina.ai/", maxChars=30000) 优点:快(~1.5s),格式干净 限制:200次/天免费配额 失败场景:微信公众号(403)、部分国内平台 ↓ 2. Scrapling + html2text(Jina 超限或失败时) exec: python3 scripts/fetch.py 30000 优点:无限制,效果和 Jina 相当,能读微信公众号 适合:mp.weixin.qq.com、Substack、Medium 等反爬平台 ↓ 3. web_fetch 直接抓(静态页面兜底) web_fetch(url, maxChars=30000) 适合:GitHub README、普通静态博客、技术文档 域名快捷路由 直接跳过 Jina,节省配额: mp.weixin.qq.com → 直接用 Scrapling zhuanlan.zhihu.com、juejin.cn、csdn.net → 优先 Scrapling 使用方式 自动模式(推荐) 直接告诉我要读取的 URL,我会自动选择合适的方案: 帮我读取这篇文章:https://example.com/article 手动指定方案 用 Scrapling 读取:https://mp.weixin.qq.com/s/xxx 安装依赖 # 安装基础依赖(包含 fetchers) pip install "scrapling[fetchers]" html2text --break-system-packages # 安装浏览器依赖(首次使用需要执行) scrapling install 脚本路径 scripts/fetch.py — Scrapling + html2text 提取脚本 调用方式: python3 ~/.openclaw/workspace/skills/web-content-fetcher/scripts/fetch.py [max_chars] 防死循环规则 同一个 URL 累计失败 2 次就放弃,记录为"无法提取",不重复重试。Weekly Installs345Repositoryshirenchuang/we…-fetcherGitHub Stars212First Seen9 days agoSecurity AuditsGen Agent Trust HubPassSocketPassSnykWarnInstalled ongemini-cli341github-copilot341codex341cline341kimi-cli341cursor341

forum用户评价 (0)

发表评价

效果
易用性
文档
兼容性

暂无评价,来写第一条吧

统计数据

安装量0
评分0.0 / 5.0
版本1.0.0
更新日期2026年3月18日
对比案例1 组

用户评分

0.0(0)
5
0%
4
0%
3
0%
2
0%
1
0%

为此 Skill 评分

0.0

兼容平台

🔧Claude Code

时间线

创建2026年3月18日
最后更新2026年3月18日