网站地图生成器

一个功能强大的网站地图生成工具,使用PyQt5制作界面,支持快速深度抓取并导出多种格式的网站地图。

下载地址:https://www.ygrjk.com/net/4.html

功能特点

️ 深度爬取整个网站的所有页面

支持导出 XML、TXT、HTML 三种格式的网站地图

⚡ 异步并发爬取,速度快效率高

⏱️ 智能延迟机制,防止频繁请求被屏蔽

配置参数

网站URL: 输入要爬取的网站首页地址(必须以 http:// 或 https:// 开头)

并发数: 同时爬取的页面数量,建议 10-50(默认20,数值越大速度越快)

延迟范围: 每次请求之间的随机延迟时间(秒),防止被封(默认0-1秒,可设为0以提升速度)

. 开始爬取

1. 点击"开始爬取"按钮

2. 程序会自动深度遍历网站的所有页面

3. **实时显示**每个页面的抓取状态和发现的URL

4. 可随时点击"停止"按钮**优雅停止**爬取

5. 停止后仍可导出已爬取的URL

4. 导出网站地图

爬取完成后,选择导出格式和分割选项:

导出格式:

XML格式 - 标准sitemap.xml格式,符合搜索引擎规范

TXT格式 - 纯文本URL列表,每行一个URL

HTML格式- 美观的HTML页面,可直接在浏览器中查看

文件分割:

不分割 - 所有URL导出到单个文件

自动分割 - 按指定数量自动分割成多个文件

- 可设置每个文件最多包含的URL数量(建议10000个)

- 例如:100000个URL,设置10000/文件,将生成10个文件

- 文件命名:sitemap_1.xml, sitemap_2.xml, sitemap_3.xml...

⚠️ 使用建议

首次使用建议设置较小的并发数(5-10)

大型网站建议增加延迟时间(2-5秒)

确保网络连接稳定

遵守目标网站的 robots.txt 规则

⚠️ **声明**

- 本工具仅供学习和合法用途使用

- 请遵守目标网站的服务条款和爬虫协议

- 请勿用于恶意爬取或攻击网站

- 使用本工具造成的任何后果由使用者自行承担

常见问题

Q: 爬取速度慢怎么办?

A: 可以适当增加并发数,但要注意不要设置过高以免被封。

Q: 为什么有些页面没有爬取到?

A: 可能是动态加载的内容(JavaScript渲染),本工具目前只支持静态HTML页面。

Q: 导出的sitemap.xml能直接用于SEO吗?

A: 可以,导出的XML格式符合搜索引擎标准,可以直接提交给百度、Google等搜索引擎。

Q: 会被目标网站封禁吗?

A: 工具已实现延迟和User-Agent优化,但仍需合理设置参数。建议首次使用时保持默认设置。

本文转自阳光软件库https://www.ygrjk.com/net/4.html