打开网易新闻 查看精彩图片

云厂商花了20年让用户二选一,现在AWS说:我全都要。

4月8日,AWS正式上线Amazon S3 Files。这个功能的本质是把文件系统塞进对象存储里,让原本互相看不顺眼的两种数据形态,被迫同居。

为什么用户被逼着"精神分裂"

为什么用户被逼着"精神分裂"

企业数据管理有个老毛病:文件系统对象存储各玩各的。

文件系统像你的电脑桌面——文件夹嵌套文件夹,能直接修改文件内容,读写速度快。对象存储更像一个巨型仓库——所有东西扔进同一个"桶"里,靠元数据标签找东西,想更新?只能删了重传。

这两种技术各有死忠。数据库、传统应用偏爱文件系统的灵活性;大数据分析、备份归档则喜欢对象存储的廉价和无限扩展。

结果就是:企业得养两套环境,数据在中间搬来搬去。AWS这次把S3 Files直接做进S3,相当于在仓库里搭了个精装修办公室——你不用再租两间房了

技术细节:翻译官+高速缓存的双层设计

技术细节:翻译官+高速缓存的双层设计

S3 Files的工作机制可以拆成两步。

应用发来文件系统指令时,S3 Files先当翻译官,把它转成S3能懂的API调用。某些场景下它也会偷懒,直接把请求甩给S3。

读写性能靠一层高速缓存兜底。AWS把热数据拉到高性能存储里处理,号称吞吐量能到每秒数TB。写操作也一样——先落缓存,再异步回刷S3。

AWS开发者布道师Sebastien Stormacq在博客里补充了个细节:「对于不需要高性能存储的大文件顺序读取,S3 Files会自动从S3直接提供服务,最大化吞吐量。对于字节范围读取,只传输请求的字节,最小化数据移动和成本。」

翻译一下:它会自己判断该走高速还是走省道,不让你多花冤枉钱。

谁最可能买账

谁最可能买账

三类 workload 会被这个改动直接影响。

第一类是传统应用迁移。很多老系统只认文件接口,上云得改代码。现在它们可以直接对着S3 Files读写,假装自己还在本地磁盘上跑。

第二类是混合数据处理。比如一个流水线既要用Spark读对象存储里的日志,又要让某个Python脚本写临时文件——以前得分两步,现在同一个桶里搞定。

第三类是成本敏感型用户。数据复制是云账单里的隐形杀手。S3 Files跳过了文件-对象之间的拷贝环节,存储一份,两种接口访问

目前S3 Files已在全球34个AWS区域开放,支持EC2、容器和Lambda。没有额外费用,按标准S3定价走。

Google Cloud和Azure也有类似方案,但AWS的牌是"原生集成"——不需要额外服务层,直接长在S3里。这省掉的不只是钱,还有一堆网络跳数和故障排查时间。

对象存储诞生时,设计哲学是"简单、不可变、最终一致"。文件系统则是"复杂、可修改、强一致"。AWS这次把它们焊在一起,是实用主义对原教旨主义的胜利。

唯一的问题是:当用户习惯了这种"无缝"体验,还会愿意回到需要手动搬数据的年代吗?