本地运行“小型”大模型，配合笔记应用王者Obsidian做知识管理|obsidian|上下文|大模型|插件功能|知识管理|词汇表|语料|预训练

Ollama简介安装运行

大家好，我是章北海

之前简单介绍过在计算机本地运行开源大语言模型（LLM）的工具——Ollama 。它支持macOS、Linux、Windows 安装客户端：

https://ollama.com/download

Olamma + 通义千问

Olamma支持几乎市面上所有的开源大模型，这里就不完全列名了。Olamma支持大模型列表：https://ollama.com/library

Model Parameters Size Download Llama 2 7B 3.8GB ollama run llama2 Mistral 7B 4.1GB ollama run mistral Dolphin Phi 2.7B 1.6GB ollama run dolphin-phi Phi-2 2.7B 1.7GB ollama run phi Neural Chat 7B 4.1GB ollama run neural-chat Starling 7B 4.1GB ollama run starling-lm Code Llama 7B 3.8GB ollama run codellama Llama 2 Uncensored 7B 3.8GB ollama run llama2-uncensored Llama 2 13B 13B 7.3GB ollama run llama2:13b Llama 2 70B 70B 39GB ollama run llama2:70b Orca Mini 3B 1.9GB ollama run orca-mini Vicuna 7B 3.8GB ollama run vicuna LLaVA 7B 4.5GB ollama run llava Gemma 2B 1.4GB ollama run gemma:2b Gemma 7B 4.8GB ollama run gemma:7b

如果想先测试一下，可以试试咱们国产大模型通义千问的0.5B版本，2G内存就能跑起来

简介：https://ollama.com/library/qwen

Qwen是阿里云推出的一系列基于Transformer的大型语言模型，在大量数据上进行预训练，包括网络文本、书籍、代码等。

人类对聊天模型的偏好显着提高性能
基础模型和聊天模型的多语言支持
稳定支持所有尺寸模型的32K上下文长度

它有 6 种型号尺寸，包括 0.5B、1.8B、4B（默认）、7B、14B 和 72B - ollama run qwen:0.5b- ollama run qwen:1.8b- ollama run qwen:4b- ollama run qwen:7b- ollama run qwen:14b- ollama run qwen:72b

其他特性：

低成本部署：推理最低内存需求小于2GB。
大规模高质量训练语料：模型预训练超过2.2万亿个token，包括中文、英文、多语言文本、代码、数学，涵盖通用和专业领域。通过大量的消融实验，对预训练语料的分布进行了优化。
性能好 1.8b ：Qwen支持长上下文长度（和参数模型上8K ，参数模型上32K ），在多个中英文下游 7b 评估任务（包括常识、推理、代码、数学等），甚至在几个基准测试中超越了一些更大规模的模型。
词汇覆盖更全面：与其他基于中英文词汇的开源模型相比，Qwen 使用的词汇量超过 150K 个 token。该词汇表对多种语言更加友好，用户可以在不扩展词汇表的情况下，直接进一步增强对某些语言的能力。
系统提示：Qwen可以通过系统提示实现角色扮演、语言风格迁移、任务设置、行为设置。