海致驭数

#文摘# 【军事战争中的‘预感’】在辅助指挥决策方面实现“先发制人”——基于海量数据，机器可形成对作战系统和作战任务状态大数据感知能力。通过指挥知识自主发现、指挥规则自主学习等机器学习，AI可分析指挥系统中大数据流向变化和关联性改变，对重要作战任务执行情况进行自主评估，对威胁目标进行推演和过滤，迅速调整作战方案，并生成危急态势处置方案。这可以帮助指挥员针对未来可能出现的状况，及时做好预案。（摘自符勇清等编纂的《数字革命：数据驱动未来战争》）

海致驭数

#文摘# 【军事大数据的应用场景】在战略研判与预警方面实现“未卜先知”——未来战争必将是多领域同时发力的混合战争。在先进算法、推演系统和数据驱动模型等技术支撑下，全球和区域的政治经济数据、社会环境数据、社交网络数据以及开源大数据，都将成为战争数据分析的一部分。利用大数据可提升对多维战场空间情报的交叉发现和深度认知能力，初步预测国家安全、军事战略和地区安全与冲突态势，提供有预测性的结论，以达到预警的目的。（摘自符勇清等编纂的《数字革命：数据驱动未来战争》）

海致驭数

#文摘# 【军队数字化的重要性】军事数据是战争的一个个或大或小的切片，它们从不同程度上反映着敌我力量和战场状态。在人工智能、数字工程、分布式计算等多种新型技术的全力推动下，实时的战场态势、武器装备，甚至指挥员头脑中的知识等，都会以数据的形式“复制”到虚拟化的数字世界中。当这些数据积累足够多时，就能拼凑出战争全貌。按照度、量、数、称这样一环一环缜密推算，便能预测走向，从而及时调整策略。如今，军队数字化转型建设已成为世界各大国的共识。（摘自符勇清等编纂的《数字革命：数据驱动未来战争》）

海致驭数

#文摘# 【军事大数据的特点】大数据又称海量数据，主要具备4V特征：数据体量巨大（volume）、数据类型繁多（variety）、价值密度低（value）、处理速度快（velocity）。而军事大数据除包含以上特点外，还有自身独有的特点。比如，数据获取困难，真实的战争有限，能从实战获取的数据少之又少；又如，数据剥离困难，战争充满了隐真示假伪装诱骗；再如，数据样本残缺、体系关联复杂等等。信息化战场上，数据的作用地位日渐凸显，某种意义上与航母、导弹、卫星等处于同一“位级”。没有数据，以精确制导武器为代表的现代武器装备大部分将变为一堆钢铁。（摘自符勇清等编纂的《数字革命：数据驱动未来战争》）

海致驭数

#文摘# 【机器认知的四要素】机器里有物质、能量、结构和时间，时钟依赖能量，时间依赖时钟，秩序依赖时间。软构体寄生在硬构体上，机器自举实现思维自动化，自我复用实现认知自成长，机器运行靠程序，程序靠时序，软件靠交互，时序和交互产生负熵，机器赖负熵为生。认知的机器由四个要素组成：物质、能量、结构和时间。结构和时间寄生在物理空间的物质和能量上，构成硬构体；认知空间里的软构体，寄生在硬构体或者已有的其他软构体之上，具有层次性，构成丰富的、多尺度的概念、消息、信息和知识，通过联想，可以形成类比，还可以在物理空间去验证。（摘自李德毅的《人工智能看哲学》）

海致驭数

#文摘【ChatGPT的缺陷】第一，可信性无法保证，它特别像一个会满嘴跑火车的人，特别会编看起来很漂亮的话，一本正经胡说八道。第二，专业领域表现欠佳，因为它是个通用的模型，在特定的专业领域未必了解得很深入。但是我要提醒大家，它在特定专业领域的表现超越人类也只是时间问题，这个时间也许比我们想象的还要更快。第三，它回答结果的稳定性较差，同一个问题可能给出不同答案。第四，时效性差，也就是它的知识范围只更新到2021年12月，无法融入新知识。基于上述缺点，我们给出的解决办法就是对ChatGPT进行专业领域的语料训练。（摘自赵晓海的《大数据分析在环境法典编纂中的运用》）

海致驭数

#文摘# 【法律人工智能的五个部分】“北大法宝”以“让法律更智能”为使命和愿景。我们把法律人工智能拆解成五个部分：一是法律原则规则化，也就是把抽象的法律原则变成具体的法律规则；二是法律规则规范化，也就是把具体了的法律规则转化为具有假定条件、行为模式、法律后果的法律规范；三是法律规范标准化，否则计算机无法理解；四是规范标准代码化，也就是法律即代码，代码即法律；五是法律工作智能化，这也是我们要最终达到的效果。（摘自赵晓海的《大数据分析在环境法典编纂中的运用》）

海致驭数

#文摘# 【大模型成功的误区】大模型的成功并不仅仅是参数量大，而是用大规模预训练+微调的方式，对海量的跨领域知识进行学习时涌现出来新的能力，而且这些新的能力往往与创新有关，但这种创新能力在工作时产生的结果并不稳定，会出现“幻觉”和胡编乱造的情况。且由于神经网络本身的特点，其内部运行机制的可解释性问题也一直没有解决。另外一个误区，认为用大模型的训练方法加上行业产业的大数据就可以形成高质量的行业大模型。这个观点并不符合大模型涌现出创新能力的规律，过于单一领域的知识反而会降低大模型的涌现出新能力的水平，导致无法有效应用到行业产业中。（摘自刘锋的《大模型的产业未来发展趋势与挑战》）

海致驭数

#文摘# 【大模型的通俗概念】一般而言，大模型(Large Language Models)指的是包含超大规模参数的神经网络模型。大模型通常能够学习到更细微的模式和规律，具有更强的泛化能力和表达能力。大模型代表了AI和深度学习在自然语言处理领域的最新进展。目前在机器翻译、语言理解、聊天机器人、图像识别，图像视频生成、语音识别、语音合成，推荐系统等等领域都获得了革命性的进步。（摘自刘锋的《大模型的产业未来发展趋势与挑战》）

海致驭数

#文摘# 【数据和智能在价值创造环节的价值体现】1、改善产品设计：借助数据分析，企业可以深入了解用户的需求和偏好，从而优化产品设计，提供更具吸引力和价值的产品。2、提高产品质量：通过收集和分析产品使用数据，企业可以持续监测产品性能，实时发现并解决问题，从而提高产品质量。3、提高效率、降低成本：数据和智能可以实现业务流程的优化，提升运营效率，同时，通过精准的需求预测和库存管理，可以有效降低存货成本和运营成本。（摘自《数字化转型：发掘数据的独特属性和巨大价值》）

海致驭数

#文摘# 【数据的独特属性】1、非消耗性：数据可以被无限次地使用和分享，而不会消耗掉。2、可复制性：数据拥有极高的可复制性，复制成本也极低。这就意味着，一旦数据被收集和产生，只要不侵犯数据隐私和所有权，它可以在任何地方、任何时间、被任何人无限制地使用和复制。3、大数据效应：数据的价值并非线性增长，而是随着数据量的增加而指数级增长。4、时间敏感性：数据的价值往往与其采集和使用的时间点密切相关。这种时间敏感性强调了把握正确的数据应用时机和方式的重要性。（摘自《数字化转型：发掘数据的独特属性和巨大价值》）

海致驭数

#文摘# 【什么是数据】数据是对客观事物的数字或符号表示，可以是文本、图像、音频、视频等多种形式。数据可以来自于各种源头，包括但不限于传感器收集的实时信息，人工输入的文字，网络上的公开信息等。例如，在自动驾驶汽车中，数据的来源包括但不限于车载传感器（如雷达、摄像头）收集的实时路况信息、GPS系统提供的定位信息，以及互联网上关于道路状况的实时更新等。这些数据为自动驾驶汽车提供了现实世界的连续且动态的“视图”，是车辆正确行驶的关键。（摘自《数字化转型：发掘数据的独特属性和巨大价值》）

海致驭数

#文摘# 【归集公共数据的两种方式】一种是水平整合相同维度的数据，扩大数据的覆盖范围；另一种是垂直整合不同维度的数据，丰富数据的内容层次。根据《浙江省公共数据条例》，数据主管部门不仅有权要求税务、海关、金融监督管理等国家垂直管理部门派驻地方的机构向其归集数据，甚至法院也有义务向行政机关归集数据。《上海市数据条例》也作了类似的规定，但区分了不同的归集形式。已有论者批判了这种做法：“政府不是铁板一块。垂直管理部门信息系统的数据本身就不允许地方政府获得。即便是地方政府内部，各职能部门数据采集和使用的法定权限既有差别，又有边界。”这一观点是有道理的，但还要区分行政机关的服务与管理职能，进行更细致的分析。（摘自郑晓军的《反思公共数据归集》）

海致驭数

#文摘# 【归集的定义】归集则指政务部门和公共服务组织将数据统一汇总到数据主管部门，是单向、持续的流动。不少地方还要求公共数据“应归尽归、全量归集”。《重大税收违法失信主体信息公布管理办法》第13条规定，国家税务总局归集各地税务机关确定的失信主体信息，并提供到“信用中国”网站进行公开。《浙江省公共数据条例》将归集作为公共管理和服务机构的强制性义务，如果未及时向公共数据平台归集数据或归集的数据不符合标准要求，将由数据主管部门按照管理权限责令限期整改。（摘自郑晓军的《反思公共数据归集》）

网易读书

海致驭数

#文摘# 【国家数据局：在12个重点领域推动数据要素高水平应用】国家数据局日前公布《“数据要素×”三年行动计划（2024-2026年）（征求意见稿）》，通过推动数据在不同场景中发挥乘数效应，促进我国数据基础资源优势转化为经济发展新优势。征求意见稿中提及的数据要素应用重点领域和场景包括：数据要素×智能制造、数据要素×智慧农业、数据要素×商贸流通、数据要素×交通运输、数据要素×金融服务、数据要素×科技创新、数据要素×文化旅游、数据要素×医疗健康、数据要素×应急管理、数据要素×气象服务、数据要素×智慧城市、数据要素×绿色低碳。

海致驭数

#文摘# 【数据共享的实际应用】数据共享是单次、双向的流动，应用场景特定，数据使用部门需事先提出申请，一事一议，风险相对可控。比如，低保认定需要查询与比对身份、收入、财产信息，涉及不同部门的多项职权，公安部门要提供户籍人口登记信息、出境旅游信息、车辆拥有情况，自然资源部门提供不动产登记资料信息，市场监管部门提供个体工商户登记注册信息。共享的前提是申请人知情，并授权民政部门调取其他部门的数据，汇总的数据作为判断申请人是否符合低保条件的依据。通过比对查询数据，可以将不符合条件的申请人排除出资格审查流程，减轻工作人员的负担，让相对人更快通过审批获取补助。（摘自郑晓军的《反思公共数据归集》）

海致驭数

#文摘# 【隐私权和“对数据相关权益的保护”的差异】其一，调整范围。前者重点保护私人生活、通信等敏感个人信息，而后者并不限于此。其二，保障强度。隐私权是阻隔权力行使的模糊性工具，遵循“禁止处理，除非……”逻辑，旨在让特定范围的事实模糊化；而数据保护是透明性工具，遵循“非禁即可”逻辑，通过权力的透明化运作，调节和引导必要、合理、合法的权力。立法者的表述也印证了这种理解的合理性。虽然在表述两种自由时，都是“每个人有……的权利（everyone has the right to）”，但涉及隐私时用的是“respect”，强调避免干预，维续分离、静止状态；涉及数据时则用的“protect”，意味着数据不同于敏感个人信息，讨论的起点是“放”，而不是“禁”。（摘自郑晓军的《反思公共数据归集》）

海致驭数

#文摘# 【数据犯罪风险的产生原因】1、立法不健全。现行的法律法规中，针对网络和金融两大领域的立法本身就较为有限。加之数据犯罪的监管执法权较为分散，且不同地区之间在立法上也存在差异。2、数字时代行为要件难以判断。目前在数据犯罪定性方面还存在较大的困难，因为在数据的界定上清晰度不足。在《刑法》规定中关于数据的外延较为模糊，存在界定标准较为模糊的弊端。3、互联网监管难度加大。在网络金融领域并没有设立较为完整系统的机构体系，导致监管作用难以发挥。监管机构只能在事发后对犯罪行为进行追查，且互联网信息具有虚拟性，进一步提升了监管执法的难度。（摘自马宁的论文《数字经济时代下的数据犯罪风险》）

海致驭数

#文摘# 【企业数据泄露的主要途径】结合数据泄露的主要途径，具体包括了内外两大方面，内部监管不当、内部人员窃取用户机密或者外部黑客窃取数据，都可能造成数据泄露。这些拥有庞大用户基础、掌握海量用户信息的企业，如果在用户数据管理方面不到位，在安全防护体系上建设不足，或者自身的数据监管义务履行不到位，也有一定的刑事风险。（摘自马宁的论文《数字经济时代下的数据犯罪风险》）

海致驭数

【MaaS方式使中小企业能使用个性化的小模型】MaaS部署在中小企业本地设备上或公有云上，以小切口嵌入PaaS与SaaS间，并提供调用基础大模型的接口，可加入企业自身数据对模型精细化调整，从而将大模型能力嵌入到SaaS产品上，解决了传统SaaS面临的客户定制化需求和标准化产品规模化盈利之间的难题。基于MaaS通过大模型可优选小程序及配套的低代码开发和模型编排等工具，PaaS可据此搭建低代码平台，丰富工具软件，实现数据和功能的定制化，以MaaS方式使中小企业上云的同时使用个性化的小模型，为数字化转型提供智能解决方案。（摘自邬贺铨的《AI时代的数据要素开发与治理》）