竞争情报;数据结构;数字化转型;开源数据;开源情报;OSINT

目录

摘要

1. 引言

2. 文献综述

3. 关键情报问题

4. 材料和方法

4.1 医药数据结构

4.2 谷歌数据结构

5. 结果

5.1 开放人类医学数据分析结果

5.2 谷歌搜索数据结果

6. 结论

7. 讨论

// 摘要 //

对机构、企业甚至公民等国家数字化转型的组成部分来说,开放数据是非常重要的信息实体。本文的研究目的是提供竞争环境分析用于制药行业,使用开源智能的方法并为此设计最优数据结构。

首先,本文利用欧盟最先进的开放人类医学数据中的抗抑郁药数据,选择捷克共和国作为主要研究领域。其次,利用一种新的上下文分析方法分析医药数据和谷歌搜索数据,我们确定了竞争情报和开源情报的关系。最后,本文展示了深网数据在竞争情报分析中的重要性,其与表网数据相结合的分析方法对医药行业具有高价值、低成本的特点。

1. 引言

当今社会,开源数据在我们的工作中发挥着重要作用,是非常重要的数字化转型趋势。此外,它已成为业务分析、洞察力和战略计划等商业实体活动的重要组成部分(Janssen 等人,2012 年)。

在很多领域,开放数据已开始成为一个领域结果输出的合理形式,并且此类开放数据集的范围已经扩大至交通、公共服务、自然科学、教育、人口学和卫生部门等多个领域,它也已成为许多国家信息政策的重要组成部分。

在美国奥巴马时期,当官方 Data.gov 网站推出后,越来越多的可追踪的证据体现了开源数据的重要性(Kostkova等人,2016 年)。数据也是欧盟市场战略的重要组成部分,因为“欧盟需要确保数据跨越国界和部门流动”。这些数据应该是可访问的,并且可由大多数利益相关者以最佳方式利用 (欧盟委员会 2018 年)。而且,大规模数字化和信息系统(IS/ICT)使用的增加也带来了大数据的挑战,要求以非传统的分析方法来揭示全球和区域趋势(Gandomi 和海德尔2015)。

因此,对竞争情报 (CI) 和开源情报(OSINT)方法论来讲,开源数据似乎是一种强大的工具可以运用在不同行业和组织。在基础层面,CI 可以定义为计划、收集和数据处理的过程,产生的信息和情报可以更好用于政策制定、规避风险和发现商业机会,尤其是在公司外部环境(Grèzes 2015)。

第一阶段需要通过关键情报主题(KIT)来识别特定商业情报,然后根据他们定义的信息需求来选择关键情报问题(KIQ)的收集过程(Herring 1999)。OSINT是一个与 CI 非常相似的循环,但它在收集阶段还包括开源数据和信息源挖掘过程。

此外,OSINT 最终用户不是主要来自企业,而是来自政府、军事、情报部门和安全服务部门。

在本文中,我们主要从两个视角来研究开放人类医学数据:政府和企业。在这两个方面我们都想设计面向公共部门的开源数据情报分析方法,例如决策者、部长、委员和其他关键人物。

我们的政府方向的目标是针对复杂的商业环境分析建立最优的开源数据结构。我们选择了开源人类药物数据中的抗抑郁药。为了增加特质性,我们添加了 Google 搜索数据透视图为我们的分析获得一个地域维度。

我们的两个主要研究问题是:在制药行业开源数据能提供重要的CI视角吗?并且可以表网搜索数据能否为人体医学数据提供了一个匿名开放的地域视角?

2. 文献综述

目前,已经有几项关于开源数据的研究可以帮助卫生部门。例如,伯纳德等人。(2018) 找到了开源解决方案可用于检测报告和控制疾病的爆发,同时还分析以前在埃博拉和非典疫情使用的类似工具。这项工作还考虑了包含在数据所有权中的情报所引发的道德问题(Oubrich2011)。

这个问题也是Kostkova等(2016 年)讨论过的。谷歌搜索数据过去在 Google 流感趋势项目中扮演了重要角色。正如库克等人(2011)评估结果所显示的,基于用户搜索查询的工具可以准确预测美国流感活动。阿赫加尔等人。(2016) 论证表明,尽管关键问题已经集中于在早期健康危害预警系统中,但OSINT 方法使用非常复杂。

近年来,开放式创新(Hughes 2017)和开放数据(欧盟委员会 2019 年)在卫生部门越来越多地被倡议。

例如,Cantor 等人(2018)为社区开发了关于健康决定因素的数据库,以加强护理计划的决策过程。Farber (2017) 讨论了对于复杂的疾病,数据库是否可以帮助找到有效的治疗方法。Perer 和Gotz (2013) 以及 Hu 等人(2016)阐述了卫生部门的数据可视化可以支撑数据通知和数据驱动决策。实现数据可视化需要遵循几个原则,例如简化、比较、探索。

调查和准备

开放数据集的质量在政策的各个层面进行了许多讨论。政策制定者高度重视数据可用性和更新频率,我们希望提高开放数据结构的质量。在本文中,我们使用了欧盟开放人类医学数据(Cerny 等人,2018 年)。在前三个月,我们对国家药品监督办公室及其开放数据政策做了一个大调查。结果有显著差异。此外,我们还设计了一种新的 CI 方法用于展示开放人类医学数据和谷歌搜索数据的内容。

首先,根据我们的二次调查,每天谷歌会有50 亿次 Google 查询,即使是在一个小样本中这一数据仍可能导致显著结果。由于国家办公室数据集的提供有严格控制,数据是匿名的,且没有领土信息。此外,通过 Google Trends 应用程序,我们能够挖掘表网用户的信息检索行为,从而获得以下数据实体:

• 搜索者的兴趣点

• 搜索者的领土来源(地区/城市)

• 我们关注领域的趋势关键字

3. 关键情报问题

在定义了研究问题之后,我们通过以下关键情报问题(KIQ)缩小了信息需求:

• KIQ1:在捷克抗抑郁药的使用是否增加?

• KIQ2:什么是市场上最具代表性的抗抑郁药?

• KIQ3:在特定市场中谁是关键角色?

• KIQ4:特定市场上的抗抑郁药市场份额是多少?

• KIQ5:有关抗抑郁药查询的搜索行为的Google 搜索数据如何确定领土信息?

4. 材料和方法

4.1 医药数据结构

我们分析了欧盟、瑞士、挪威和土耳其等国家监管和政策制定部门数据的可访问性。当我们联系每个机构时,我们收集有关时间响应的信息,内容相关性的反馈级别和基于他们提供数据收集帮助的能力的人为因素。

我们意识到初次研究的结果是严格定性的,可能存在误导,所以我们时间周期拉长至三个月。电子邮件通讯是首选的方式,但在特定情况下还需要电话沟通。

其次,我们尝试了所有可能的信息来源,例如官方网站,存储库和 FTP 服务器,监控开放人类健康数据集是否可用以及如何处理它们的格式。

如果数据集没有存在于网上,我们还搜索了可用于生成所需数据字段的的系统接口。如果确实没有开放数据,我们通过和负责人沟通以收集有关开放数据政策的信息。因为我们的目标是获得有关抗抑郁药市场的洞察力,我们专注于可能导致质量问题的特定数据实体的商业分析。

在我们看来,我们已经可以揭示特定市场趋势。下表解释了在高级 CI 业务分析中,为什么数据字段应该被视为关键信息元素。

表 1为复杂业务分析设计的数据字段

首先,ATC 代码(WHO 2018)是制药领域的国际公认分类标准,在本文案例研究中的起到重要作用。如下所示,我们选择了 N06A 组,但如果特定活性成分需要分析,我们可以缩小研究范围。

• ñ神经系统

• N06精神安眠药

• N06A抗抑郁药

• N06AA非选择性单胺再摄取抑制剂

• N06AB选择性血清素再摄取抑制剂

• N06AF单胺氧化酶抑制剂,非选择性

• N06AG单胺氧化酶 A 抑制剂

• N06AX其他抗抑郁药

最低级别的分类可以进一步分为特定的药物,这可以解决当数据集不包括商业药名的问题。例如,N06AA 类(非选择性单胺再摄取抑制剂)涵盖子类 N06AA01(地昔帕明)有关每日确定剂量的信息(DDD)。

在这种情况下,我们将使用 MeSH浏览器(美国国家医学图书馆2019)找到商业药名,例如Pertofran、Norpramin 等。这些药品支持ATC作为存在确认标识符代码的特定药物。药品名称和其生产商,连同原产国,都是商业实体分析中最基本的标识符。

4.2 谷歌数据结构

此外,我们的目的是验证医药数据CI市场分析结果。如果我们能够获得有关制药公司的详细市场数据,我们还需要添加领土信息,这是至关重要的。因为开放人类医药数据具有匿名性。通过谷歌趋势应用程序,我们能够挖掘表层网络的信息搜索行为并获取以下数据实体:

• 搜索者兴趣点,时间追溯至 2004 年

• 搜索者的领土来源(地区/城市)

• 我们关注领域的趋势关键字

• 我们构建了如下的 Google 搜索数据集:

• 国家

• 搜索词(特定国家语言和英语的抗抑郁药关键字)

• 周(特定年份)

• 指定国家/地区的搜索次数

• 地区

• 给定地区的搜索次数

5. 结论

5.1 开放人类医学数据分析结果

收集的数据反映了目前开放人类医药数据质量和可访问性的水平。我们经历了三个层次的收集过程中,发现了显著性差异。我们面临的最大问题可能是由于语言差异,在不同国家获得数据结构难以应用于全区域分析。

例如捷克共和国和斯洛文尼亚的数据集很复杂,而威尔士或斯洛伐克等国家只提供对特定药物的简单见解,保加利亚或希腊没有数据。尽管一些国家既没有开放数据库也无法访问数据文件,但他们提供一个特定的搜索界面,可以用于搜索、过滤和导出打开医学数据文件。

这种方法对我们的研究是有利的,因为导出的文件已经包含要求类的药物。排除法国,波兰、克罗地亚和立陶宛都有特别强大的搜索界面,我们可以使用特定的 ATC 代码搜索表格。在第三阶段数据收集过程中我们发现不同机构的信息服务存在显著差异。表 2用注释呈现了响应时间。

表2机构信息服务时间响应调查

在收集过程中,我们处理了主要是数据结构和数据质量问题。每个国家文件格式和字段都不同。此外,数据质量会导致数据分析的准备工作的时间成本很高,尤其是当我们处理每一个差异国家中带有公司和药品名称时。

本文研究中,我们选择了来自捷克共和国的数据集可能存在的开放数据 CI 分析。首先,捷克数据集的结构和质量是研究国家中最复杂的。其次,我们能够获得有价值的市场洞察力。我们使用 Tableau (2019) 创建可以共享和可视化的交互式分析(Datig 和 Whiting 2018)。

通过研究捷克共和国,我们可以获得非常详细的结论。首先,我们想分析捷克公民抗抑郁药的消费趋势(KIQ1)。我们使用了一个开放的数据集,涵盖时间段从1991年到2018年。

图1抗抑郁药消费的增加

表 3捷克抗抑郁药物领导者市场洞察通过开放数据 2009-2018 与处方信息

在此背景下,我们进一步的研究是发现处方抗抑郁药(KIQ2、KIQ3)和他们在国内的市场份额。缩小研究时间段,如表3,得到准确的市场数据。这一步是必要的,因为存在显著的市场变化,例如截至2005年 Prothiaden 一直是开具处方最多的抗抑郁药,随后它的受欢迎程度下降迅速。

由于我们发现捷克共和国的主要药物代表,我们可以将这些与精神障碍的类型联系起来,如表 3 所示。这用于预测特定区域人群的心理健康趋势。然而,归功于开放数据,我们可以监控抗抑郁药(KIQ4)的整个市场份额,并将主要代表药物的生产者与整体抗抑郁药市场份额作比较(表 4)。

表 4 2009-2018年捷克抗抑郁药市场份额

5.2 谷歌搜索数据结果

为了分析开放人类药物数据和信息查询行为之间的联系,我们使用谷歌趋势(Nutiet al· 2014)中的谷歌搜索数据。分析的目的是为了确认Google 搜索数据和特定抗抑郁药消费的市场信息之间的相关性。Google 趋势(Trends.google.com) 提供可用格式的Google搜索数据。

将确定的关键词组合(一般抗抑郁药术语和特定药名)逐渐插入谷歌趋势,下载所有数据转换成 CSV 文件并汇总。同时确保数据在分析期限内。合并的 CSV 文件作为下面分析的基础(图2)。

图2 人均搜索分析

在分析时换算成人均值时为了确保不同人口规模的国家计算结果的可比性。整体分析显示人均搜索量自 2011 年以来有所增加,且基于以上分析可确认消费增加。

分析表明,搜索量和人均搜索量之间的关系不仅受国家大小的影响,而也受其他因素影响。挪威、爱沙尼亚、瑞士、荷兰和奥地利等人数多的国家的人均搜索量也大。捷克共和国的搜索量和人均搜索量都高于平均水平。

分析捷克市场趋势和捷克搜索趋势之间的相关性很重要。我们选择了两种最具代表的捷克共和国的处方药--Cipralex 和 Citalec,比较了它们的谷歌搜索表现和市场表现(图 3 和图 4)。

图3 2009-2018 Cipralex 和 Citalec的市场表现

图4 2009-2018 Cipralex 和Citalec的谷歌趋势比较

我们通过这些分析证明市场数据和谷歌数据之间有显著相关性。总结一下,如果国政府办公室不提供具有地域性的开放人类医学数据,我们可以使用谷歌数据(KIQ5)来缩小我们的市场分析范围(表 5 和表6)。

表 5 2009-2018期间关键词 Cipralex的谷歌搜索数据的区域分析

表6 2009-2018期间关键词Citalec的谷歌搜索数据的区域分析

6. 结论

在竞争环境分析中,开放人类健康数据可以作为关键信息实体,用以展示一个大的地理区域内的特定健康趋势。前提是需要满足两个条件。

首先,该数据必须遵循和定义变量一致的数据结构。其次,该数据集必须包括特定药物或活性药物的分类代码。对整个欧盟成员国的数据进行了三个月的收集,由于开放人类健康数据的机构和质量较差,是我们的数据合成面临很大困难。最后,我们展示了捷克抗抑郁药市场的开放数据CI 分析。

此外,捷克提供的高质量数据,包括 ATC 分类,生产者、消费和定价数据以及可靠的追溯性,为特定药品和公司市场表现提供了新的视角。我们利用ATC 分类来过滤1991年至2018年期间退市的抗抑郁药的消费趋势,然后从 2009 年到 2018 年提供真实的市场表现。

之后,我们利用出捷克共和国抗抑郁药市场中的关键角色和主要使用的抗抑郁药,连同消费数据(每日剂量、包装数量等)最终计算出抗抑郁药的总消费量。我们的第一个研究问题是得到了证实:开放数据及其语境分析可以为特定国家带来情报。

我们的第二个研究问题集中在开放医学数据的地理区域方面。

首先,药品数据是严格匿名的。没有一个机构能够提供含有地理位置的数据集。我们决定使用信息搜索行为数据来展示抗抑郁药消费的潜在地理语境。我们使用了Google 搜索数据以及包含与“抗抑郁药”相关的关键字作为药品的总体分类和具体名称。通过开放数据分析发现,谷歌搜索数据与市场趋势相关,但地域洞察力在这方面并不重要。

然而,这种方法对于较大的西方国家(例如美国、英国)分析是非常有效的,因为这些国家可以使用更多重要且详细的搜索数据样本。

为此,我们第二个研究问题得到了解决。我们未来的工作旨在寻找人类医学市场数据与以专利数据为视角的创新过程之间可能存在的情报联系。

7. 讨论

本文的目的是研究将开放数据作为获取制药行业内部情报的一种工具。我们的结果不仅提供了重要且相关的市场联系,也证实了开放人类医学数据可以在公共实体范围内对商品信息进行趋势分析,例如旨在提高公共卫生水平的政府决策机构。得益于 ATC 分类系统,我们能够确定特定国家人口中的健康状况问题。更重要的是,我们可以比较各国健康状况。

在数据的收集阶段,关于数据的结构和质量使我们得出一个结论,欧盟应该更认真地考虑,开放人类医学数据计划。我们设计了最佳数据字段作为参照。这将有助于欧盟以最可靠的方式使用开放数据加强公共卫生。

尽管如此,开放人类健康数据在我们情报研究的结构设计中起着重要的作用。根据我们的结果,我们能在任何地方获得选定地理区域上的抗抑郁药市场信息包括药品公司、医药品牌和有效治疗药物。

附:报告原文获取方式请在文章下留言,并备注报告名称。