什么是 JS 逆向？

JS 逆向（JavaScript Reverse Engineering）指通过分析网页中 JavaScript 代码的加密逻辑，还原数据请求的加密参数生成过程。它是爬虫开发中绕过反爬机制的核心技术。JS逆向一般分为请求逆向和响应逆向。

请求逆向：网站通过将请求所需的动态关键字如页码、搜索关键字、账号密码等信息加密放在 headers、params、cookie 中实现，实现请求加密，这样防止爬虫者篡改请求参数爬取到页面信息。而爬虫者通过前端断点调试，找出 JavaScript 代码的加密逻辑，还原数据请求的加密参数，伪造加密参数，发出请求。
响应逆向：服务器返回给前端的是加密的字符串，为能够在页面正常显示信息，前端的 JavaScript 代码对字符串进行解密。爬虫者通过前端断点调试，找出 JavaScript 代码的解密逻辑，还原加密数据解密过程，拿到数据。

核心工具链

1. 调试工具

Chrome DevTools：断点调试 JavaScript，观察变量变化
Fiddler/Charles：篡改 JavaScript 文件
Node.js：快速验证 JavaScript 加密函数

2. Python 库

requests：模拟 HTTP 请求
lxml bs4：解析 HTML
PyExecJS：执行 JavaScript 代码片段

实战案例：破解简单加密参数

以某网站的 portal-sign 参数为例，演示逆向流程。

步骤 1：定位加密逻辑

打开目标网页，使用 Chrome DevTools 的 Network 面板观察请求参数。
搜索关键词（portal-sign），定位生成加密参数的 JavaScript 函数。

定位入口：

t.headers["portal-sign"] = f.getSign(e)

function d(t) {
            for (var e in t)
                "" !== t[e] && void 0 !== t[e] || delete t[e];
            var n = r["a"] + u(t);
            return s(n).toLocaleLowerCase()
        }

步骤 2：提取并复现加密逻辑

理解加密逻辑，就是用MD5：

python

from hashlib import md5
import time


def get_sign(data):
    # (1) 固定字符串
    s = 'B3978D054A72A7002063637CCDF6B2E5'
    # (2) 将参数整理成某称格式字符串
    l = sorted(data.items(), key=lambda i: i[0])
    data_str = ""
    for key, val in l:
        data_str += key + str(val)

    print("data_str:::", data_str)

    # (3)
    s = s + data_str
    md5_obj = md5()
    md5_obj.update(s.encode())

    return md5_obj.hexdigest()


sign = get_sign(json_data)
print("sign:::", sign)

步骤 3：模拟请求

将生成的参数加入请求头或表单数据：

python

import requests

cookies = {
    'ASP.NET_SessionId': 'yia0gk1jwug2xfesgxkqoc3u',
}
headers = {
    'Accept': 'application/json, text/plain, */*',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Cache-Control': 'no-cache',
    'Connection': 'keep-alive',
    'Content-Type': 'application/json;charset=UTF-8',
    'Referer': 'https://ggzyfw.fj.gov.cn/index/new/',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36',
    'sec-ch-ua-platform': '"macOS"',
}
json_data = {
    'type': '12',
    'IS_IMPORT': 1,
    'pageSize': 20,
    'ts': timer,
}
headers["portal-sign"] = sign
response = requests.post('https://ggzyfw.fj.gov.cn/FwPortalApi/Article/PageList', 
                         cookies=cookies, headers=headers,
                         json=json_data)

print(response.text)

进阶方向

技术核心：通过 JavaScript 检测浏览器指纹（如 navigator 对象、Canvas 渲染结果、WebGL 信息）和 TLS 握手特征，动态生成加密 Cookie（如 _umdata、__RC）。
示例：瑞数（River Security）通过动态执行的 JS 代码生成前后两次的cookie。

2. 验证码（极验、顶象）

技术核心：结合行为分析（如鼠标轨迹、点击压力）、生物特征（如滑动速度）和 AI 风险评分，生成动态验证码。
示例：
- 极验（Geetest）：第三代滑块验证码需模拟人类拖动轨迹（先加速后减速），并破解 gt、challenge 参数的加密逻辑。
- 顶象（DingXiang）：通过 XSS 防御和 WebAssembly 实现的无感验证（如 "文字点选"），需逆向其 dx.js 中的算法。

3. JS 混淆或加密（Obfuscator、Wasm、JSVMP）

技术核心：
- 代码混淆：通过变量名替换、控制流平坦化（Control Flow Flattening）、字符串加密隐藏逻辑。
- WebAssembly 加密：将核心算法编译为 .wasm 文件，反编译门槛高（如 wat 格式需进一步分析）。
- JSVMP（虚拟机保护）：将 JS 代码编译为自定义字节码，通过虚拟机解释执行。

4. 字体反爬、CSS 反爬、雪碧图

技术核心：
- 字体反爬：自定义字体文件（如 woff、ttf）映射字符编码（如数字 1 显示为 A，但实际 Unicode 为 xE001）。
- CSS 反爬：通过 CSS 偏移（::before 伪类）或层级覆盖隐藏真实文本（如价格显示 ￥100，但实际 DOM 中是 ￥<span class="hidden">200</span>）。
- 雪碧图（CSS Sprites）：合并多个图标为一张图片，通过 background-position 定位，增加 OCR 识别难度。
示例：猫眼电影票房数据使用自定义字体加密数字，需下载 .woff 文件并解析 cmap 表还原真实数值。

5. TLS 指纹检查

技术核心：通过分析客户端的 TLS 握手特征（如支持的加密套件、扩展字段、协议版本）生成唯一指纹（如 JA3 哈希），识别非浏览器流量。
示例：Cloudflare 的 cf-chl-bypass 检测会拦截 TLS 指纹异常的请求，需模拟真实浏览器指纹（如 Chrome 的 TLS_GREASE 握手特征）。

学习资源推荐

视频教程：【无逆向难爬虫】爬虫高手进阶之路
资源汇总：虫盒、吾爱破解
开源项目：learn_python3_spider、CrawlerToturial、CrawlerWorks

理论基础

查找算法

双指针技巧

滑动窗口

矩阵操作

前缀和技巧

链表基础操作

链表翻转与交换

链表高级问题

字符串哈希应用

数组哈希应用

N数之和问题

字符串反转

字符串处理

栈队列实现

栈的应用

队列与堆的应用

理论基础与总结

遍历方法

二叉树属性

二叉树路径问题

二叉树修改与构造

二叉搜索树

公共祖先问题

理论基础与总结

组合问题

分割问题

子集问题

排列问题

棋盘问题

理论基础与总结

基础贪心问题

序列问题

两个维度权衡

区间调度问题

其他贪心问题

理论基础与总结

基础动态规划

背包问题

打家劫舍系列

股票问题

子序列问题

编辑距离

回文问题

理论基础

深度优先搜索（DFS）

广度优先搜索（BFS）

岛屿问题专题

并查集应用

最小生成树

最短路算法

拓扑排序与有向图

什么是 JS 逆向？ ​

核心工具链 ​

1. 调试工具 ​

2. Python 库 ​

实战案例：破解简单加密参数 ​

步骤 1：定位加密逻辑 ​

步骤 2：提取并复现加密逻辑 ​

步骤 3：模拟请求 ​

进阶方向 ​

1. 检测浏览器环境动态生成 Cookie（如瑞数） ​

2. 验证码（极验、顶象） ​

3. JS 混淆或加密（Obfuscator、Wasm、JSVMP） ​

4. 字体反爬、CSS 反爬、雪碧图 ​

5. TLS 指纹检查 ​

学习资源推荐 ​

什么是 JS 逆向？

核心工具链

1. 调试工具

2. Python 库

实战案例：破解简单加密参数

步骤 1：定位加密逻辑

步骤 2：提取并复现加密逻辑

步骤 3：模拟请求

进阶方向

1. 检测浏览器环境动态生成 Cookie（如瑞数）

2. 验证码（极验、顶象）

3. JS 混淆或加密（Obfuscator、Wasm、JSVMP）

4. 字体反爬、CSS 反爬、雪碧图

5. TLS 指纹检查

学习资源推荐