2025-03-28 23:19:42 +08:00
|
|
|
|
# baidu-reporter
|
|
|
|
|
|
|
2025-03-31 14:17:32 +08:00
|
|
|
|
## 使用方式
|
2025-03-30 22:49:37 +08:00
|
|
|
|
|
|
|
|
|
|
```shell
|
|
|
|
|
|
# 采集模式,采集指定关键字的URL列表,直接存入数据库
|
|
|
|
|
|
python main.py --crawl www.yunzhiju.net
|
|
|
|
|
|
|
2025-04-01 21:54:01 +08:00
|
|
|
|
# 批量采集模式,使用英文逗号分割多个域名
|
|
|
|
|
|
python main.py --crawl www.yunzhiju.net,www.yunzhiju.net
|
|
|
|
|
|
|
|
|
|
|
|
# 另外一种批量采集模式,从文件中读取域名,每行一个
|
|
|
|
|
|
python main.py --crawl-file ./domains.txt
|
|
|
|
|
|
|
|
|
|
|
|
# 这两种采集模式可以一起使用
|
|
|
|
|
|
python main.py --crawl www.yunzhiju.net,www.yunzhiju.net --crawl-file ./domains.txt
|
|
|
|
|
|
|
2025-03-30 22:49:37 +08:00
|
|
|
|
# 收集模式,收集所有待举报的链接的截图与 Token
|
|
|
|
|
|
python main.py --evidence
|
|
|
|
|
|
|
|
|
|
|
|
# 举报模式,干他丫的
|
|
|
|
|
|
# 可以通过参数决定使用哪个举报渠道
|
|
|
|
|
|
python main.py --report wap,pc,site
|
|
|
|
|
|
```
|
2025-03-31 14:17:32 +08:00
|
|
|
|
|
|
|
|
|
|
## 目录结构
|
|
|
|
|
|
|
|
|
|
|
|
```plain
|
|
|
|
|
|
├── app # 程序主包
|
|
|
|
|
|
│ ├── app.py # 包入口
|
|
|
|
|
|
│ ├── config/ # 配置管理
|
|
|
|
|
|
│ ├── engines/ # 存放所有的 engine
|
|
|
|
|
|
│ │ ├── crawl_engine.py # 采集引擎,从百度中采集指定域名的URL列表
|
|
|
|
|
|
│ │ ├── evidence_engine.py # 证据收集引擎,截图、获取举报 Token
|
|
|
|
|
|
│ │ ├── report_engine.py # 举报引擎入口,负责调用各个渠道的举报引擎
|
|
|
|
|
|
│ │ └── reporters # 举报器
|
|
|
|
|
|
│ │ ├── base.py # 举报器基类
|
|
|
|
|
|
│ │ ├── pc_reporter.py # PC 渠道举报器
|
|
|
|
|
|
│ │ ├── site_reporter.py # Site 渠道举报器
|
|
|
|
|
|
│ │ └── wap_reporter.py # wap 渠道举报器
|
|
|
|
|
|
│ ├── models # ORM 层,数据库模型
|
|
|
|
|
|
│ │ ├── base.py # ORM 基类
|
|
|
|
|
|
│ │ ├── domain.py # Domain 模型,存储域名记录
|
|
|
|
|
|
│ │ └── report_urls.py # ReportURL 模型,存储举报记录
|
|
|
|
|
|
│ └── utils # 工具类
|
|
|
|
|
|
│ ├── common.py
|
|
|
|
|
|
│ ├── custom_base64.py
|
|
|
|
|
|
│ ├── dp.py # chrome 类
|
|
|
|
|
|
│ ├── gen_cookie.py
|
|
|
|
|
|
│ ├── ua.py
|
|
|
|
|
|
│ └── ydm_verify.py # 验证码打码
|
|
|
|
|
|
├── captcha/ # 验证码图片
|
|
|
|
|
|
├── data/ # 目前主要放了 cookie 文件
|
|
|
|
|
|
├── imgs/ # evidence 中用到的截图
|
|
|
|
|
|
├── js/ # repoter 中用到的 js 文件
|
|
|
|
|
|
├── main.py # 程序主入口
|
|
|
|
|
|
├── config.local.toml # 开发环境配置文件
|
|
|
|
|
|
├── config.prod.toml # 生产环境配置文件
|
|
|
|
|
|
└── tests # 测试文件,可以不用管
|
|
|
|
|
|
```
|