自然语言处理(NLP)一直以来都是计算机科学领域的一个重要方向,也被称为「人工智能皇冠上的明珠」,是人工智能技术当下和未来发展的战略制高点,也是计算机迈入智能化的必经之路。研究 NLP 不仅能够促进技术发展,对于信息安全等领域也有着重要意义。

清华大学自然语言处理与社会人文计算实验室

作为国内顶级学府,清华大学是国内最早开展研究 AI自然语言处理的高校。经过不懈努力,清华大学成立的自然语言处理与社会人文计算实验室(THUNLP)已经发展成为国内外自然语言处理研究的一方重镇。与其他大学的类似机构有所不同,该实验室致力于与社会科学及人文科学相结合,建设以中文为核心、覆盖多种语言、从词法到篇章的全流程自然语言处理技术框架与计算平台。

在越来越大的语料库、越来越多的模型设计冲击下,清华大学自然语言处理与社会人文计算实验室面临着深度学习计算成本高昂、大规模标注数据稀缺、难以实现真正的理解与推理等关键挑战,计算力的提升成为支撑研究的重点。为满足实验室的算力要求,宝德AI服务器携手魔泊云MoPaaS AI管理平台打造神经网络/深度学习软硬件综合高性能计算系统。

硬件层面:

宝德提供AI加速计算服务器PR4908P,集成主流的CPU+GPU异构计算架构。采用第二代英特尔至强可扩展处理器,支持8张全高全长双宽的GPU卡,具有训练速度快(支持多机多卡并行)、显存占用低(支持单精度浮点数计算)、集群化部署(以GPU集群方式对数据或深度网络模型进行优化)等优势。

单机拥有24个DIMM插槽并最多容纳6TB内存,支持24块2.5英寸热插拔SAS/SATA硬盘,满足大规模数据集用于训练和构建机器学习模型的需求。

宝德AI加速计算服务器PR4908P

软件层面:

MoPaaS AI平台覆盖了AI开发的各个环节,包括数据处理、模型开发、数据标注、模型训练、模型部署等。只需将原始数据导入,便可在线对数据进行清洗和标注,支持AI训练任务、分布式训练、可视化部署等训练作业。MoPaaS AI平台弹性算力、开箱即用、融合开放、可视化的特点,让实验室在具备训练数据的条件下可以迅速为新语种部署系统,能够利用大规模无标注文本学习预训练模型,在自然语言处理各重要任务上取得显著性能提升。

不仅如此,其GPU资源优化管理和智能PaaS技术提供了高效分布式AI 训练环境,弹性灵活地满足不同场景对算力、性能、安全和成本的需求,并可实现对资源的实时调度。

由宝德AI加速计算服务器和魔泊云MoPaaS AI平台共同构建的人工智能计算平台,使得清华大学自然语言处理与社会人文计算实验室能够围绕人类语言所体现的人类智能本质,加速鲁棒研究、可解释的自然语言处理方法与技术,深入探索语言理解与生成技术在社会人文计算领域的应用。

未来,宝德和魔泊云将继续携手为自然语言处理等领域的研究提供长期稳定的支持,助力企业商用、教育科研等实现从零到一的突破。