【免费好上手的采集神器】https://www.bazhuayu.com/?wyh
大数据时代的到来,给人们生活的方方面面都带来了显而易见的变化,而围绕数据所生成的数据新闻,更成为一种新生的载体,以其所拥有的描述、判断、预测等功能为广大读者带来便利与快捷。但数据新闻的生产也给新闻团队带来了更高的要求,不仅要具备写作、调查、解读数据、制图等基本业务能力,还要学会与编程人员、数据分析人员和网页开发人员密切配合。如果能够灵活利用工具来处理工作,很多问题都能迎刃而解。小八从数据采集、数据分析、数据可视化三个方面整理了部分数据新闻从业者常用的工具,赶紧收藏下来吧!
01数据采集工具
数据采集(Data Scraping)又称作数据抓取或网页抓取,是利用电脑程序从网页采集文字和数据,并将其整理成便于分析的格式。比较常用的方法是用R语言或Python编写“爬虫”程序,除此之外,还可以使用现有的采集软件,无需编程基础也能够采集所需的网页数据。
八爪鱼采集器
八爪鱼采集器是一款非常适合新手的采集器。它具有简单易用的特点,让你能几分钟就快速上手。为了减少使用上的难度,八爪鱼为初学者准备了“网站简易模板”,涵盖市面上多数主流网站。使用简易模板,用户无需进行任务配置即可采集数据。如果想抓取没有模板的网站,官网也提供非常详细的图文教程和视频教程。此外,你还可以设置定时云采集,实时获取动态数据并定时导出数据到数据库或任意第三方平台。
Scrapinghub
如果想抓取国外的网站数据,可以考虑 Scrapinghub。Scrapinghub 是一个基于Python 的 Scrapy 框架的云爬虫平台。Scrapehub 算是市场上非常复杂和强大的网络抓取平台,提供数据抓取的解决方案商。
WebScraper
WebScraper 是一款优秀国外的浏览器插件。同样也是一款适合新手抓取数据的可视化工具。我们通过简单设置一些抓取规则,剩下的就交给浏览器去工作。
Import.io
Import.io是一款基于网页的数据抓取工具。它于2012年首次在伦敦上线。现在,Import.io将其商业模式从B2C转向了B2B。2019年,Import.io收购了Connotate并成为网页数据集成平台。凭借广泛的网页数据服务,Import.io成为了业务分析的绝佳选择。
Parsehub
Parsehub是一款基于网页的爬虫程序,支持采集使用了AJax, JavaScripts技术的网页数据,也支持采集需要登录的网页数据。它有一个一周免费试用的功能。
Mozenda
Mozenda是一款网页抓取软件,也可以为商业级数据抓取提供定制服务。用户可以从云上和本地软件中抓取数据并进行数据托管。
02数据分析工具
Excel
尽管已经过了这么多年,Excel 依然是处理数据的经典工具。在各种高级数据分析软件大行其道的今天,绝大部分数据分析项目仍然能用 Excel 解决,而且学起来也比较容易。像总结数据、可视化数据、数据清洗等重要功能,Excel都能支持。不管你知道多少数据分析工具,Excel 还是要熟悉使用的。对于简单的逻辑分析和小规模数据集,Excel是完全可以满足数据清洗的要求的,同时Excel也可以用分类、聚类、关联和预测这几种算法来实现简单的数据挖掘。
Tableau Public
Tableau 是一个交互式数据可视化工具。可视化库丰富,操作简单。不像大多数可视化工具那样需要编写脚本,Tableau的简便性可以帮助新手降低使用难度。类似一个巨大的数据透视表,有一个交互式的可视化仪表板,拖拽数据字段通过可视化方式进行数据分析。他们也有一个“新手入门工具包”和丰富的培训资料,可帮助用户创建创更多的分析报告。
Power BI
Power BI 是一套商业分析工具,用于在组织中提供见解。可连接数百个数据源、简化数据准备并提供即席分析。生成美观的报表并进行发布,供组织在 Web 和移动设备上使用。每个人都可创建个性化仪表板,获取针对其业务的全方位独特见解。在企业内实现扩展,内置管理和安全性。
FineBI
FineBI是新一代自助大数据分析的商业智能产品,提供了从数据准备、自助数据处理、数据分析与挖掘、数据可视化于一体的完整解决方案。FineBI的使用感同Tableau类似,都主张可视化的探索性分析,有点像加强版的数据透视表。上手简单,可视化库丰富。可以充当数据报表的门户,也可以充当各业务分析的平台。
Qlikview
Qlikview 是全球商业智能领域最受欢迎的工具之一,具有出色的数据分析和可视化功能,而且操作方便。在数据处理级别,通过点击操作,可以方便地删除重复的行、空替换、数据裁剪、数据脱敏、类型转换等操作。QlikView允许用户一键浏览数据,系统自动匹配最合适的图形显示数据库数据,帮助用户初步了解数据规律,也可以在数字肖像的基础上进行二次分析。图表类型算丰富,所有图表无需任何设置即可联动,也可以选择部分图表参与联动钻取。还支持一键选择统计方法。
Trifacta
Trifacta 的数据整理工具革新了传统的数据清洗方法,所以 Excel 数据处理有时会受到数据规模的限制,而 Trifacta 就没有这种顾虑,可以放心大胆地拿来处理超大型数据集。另外,像图表推荐、内置“开箱即用”的算法、分析见解等功能,都能让你非常方便地生成数据分析报告。
Rapid Miner
这款工具不仅仅是个数据清洗工具,还能用于创建机器学习模型,融合了所有常用的机器学习算法。在数据分析方面,Rapider Miner 提供轻便快速的分析功能,以及大数据、可视化、模型部署等。如果业务中涉及从数据加载、清洗、分析到模型搭建和部署这一整套流程,Rapider Miner 绝对能帮上大忙。
Weka
Weka 的一个好处就是容易上手,界面很直观。它提供数据预处理、数据分类、数据回归、数据聚类和可视化等功能。最初 Weka 是新西兰怀卡托大学设计的用于研究目的的工具,但现在越来越多的职场人士也开始用它。Data Preparator这款工具能让我们完成数据挖掘、数据清洗和数据分析,内置了多种工具包,可处理离散化、数值计算、数据缩放、属性选择、缺失值、异常值、统计、采样等。这个工具的一个特殊好处是用于数据分析的数据集不会占用电脑内存,所以在处理较大的数据集时不会遇到内存问题。
DataCracker
专用于处理调研数据的数据分析软件。现在很多公司会收集调研数据,数据调研也是数据新闻中不可缺失的一个步骤,而调研数据都需要清理,有大量的缺失值和异常值。DataCracker 能帮我们快速清理和分析调研数据。还能从很多主流的调研项目中加载数据。
03数据可视化工具
Pyecharts
Python正慢慢地成为数据分析、数据挖掘领域的主流语言之一。在Python的生态里,很多开发者们提供了非常丰富的、用于各种场景的数据可视化第三方库。这些第三方库可以让我们结合Python语言绘制出漂亮的图表。Echarts(下面会提到)是一个开源免费的javascript数据可视化库,它让我们可以轻松地绘制专业的商业数据图表。当Python遇上了Echarts,pyecharts便诞生了,它是由chenjiandongx等一群开发者维护的Echarts Python接口,让我们可以通过Python语言绘制出各种Echarts图表。
Bokeh
Bokeh是一款基于Python的交互式数据可视化工具,它提供了优雅简洁的方法来绘制各种各样的图形,可以高性能地可视化大型数据集以及流数据,帮助我们制作交互式图表、可视化仪表板等。
Echarts
Echarts是一个开源免费的javascript数据可视化库,它让我们可以轻松地绘制专业的商业数据图表。之前大规模报道的百度迁徙、百度司南、百度大数据预测等等,这些产品的数据可视化均是通过ECharts来实现的。
D3D3(Data Driven Documents)是支持SVG渲染的另一种JavaScript库。但是D3能够提供大量线性图和条形图之外的复杂图表样式,例如Voronoi图、树形图、圆形集群和单词云等。
CartoDB
CartoDB是一款交互式地图制作工具,提供“一键式制图”功能,上传数据后会自动推荐一系列地图格式供用户选择和修改,方便实用,适合缺乏编程基础又想尝试可视化的人士。该程序最初由两名西班牙研究生物多样性和自然保护的科学家开发,至今已经拥有超过12万用户,尤其深受数据新闻工作者的喜爱。
Google Fusion
Fusion Tables是属于Google Drive产品中的一项应用,是一个功能庞杂的制图工具,适用于CSV和Excel等常见数据格式。绘制地图方面,其特点之一是能够融合不同的数据集,而且地理信息编码功能也十分突出。记录地理信息的KML(Keyhole Markup Language)是其常用格式。
TimelineJS
TimelineJS用于制作新闻事件时间轴,属于免费且开源的可视化工具,目前支持40种语言。你需要先用Google Spreadsheet按照格式要求编制一份表格,将表格链接复制到TimelineJS,然后就能自动生成一个时间轴了。
Infogram
Infogram是一种直观的可视化工具,可帮助你创建精美的信息图表和报告。它提供了超过35个交互式图表和500多个地图,帮助你可视化数据。除了各种各样的图表,还有柱状图、条形图、饼图或词云等。BDP个人版BDP个人版是一款免费使用的在线数据可视化分析工具,无需下载,从数据接入整合,到数据处理、分析、挖掘,再到多终端可视化,帮助用户大大提升数据分析效率,通过简单的拖拽字段,呈现各种精美的可视化图表。
镝数图表
镝数图表是一款功能强大的免费在线数据可视化工具,输入数据即可一键生成可视化图片,网页交互图表,数据动图、矢量图表以及信息图表支持包括词云图,桑基图,玫瑰图,河流图,雷达图等110多种图表种类;提供上千种可视化模版,内容创作、媒体运营、营销海报、市场研究、论文写作、工作总结、个人简历等场景的可视化设计均可在镝数轻松搞定。
热门跟贴