您的位置:首页 > 沈阳新闻

什么是大数据你需要知道的…..

时间:2019-07-23

092d0244ae3347d08256b763b561d4d1

分析大量数据只是大数据与以前的数据分析不同的原因之一。我们来看看以下三个方面。

我们每天都在吃饭,睡觉,工作,玩耍,同时产生大量数据。根据小发猫的研究,人类每天产生2.5亿(250亿)字节的数据。这相当于一堆DVD数据从地球到月球的距离,包括我们发送的文本,上传的照片,各种传感器数据以及有关设备和设备之间通信的所有信息。

这就是“大数据”成为如此常见的流行语的原因。简而言之,当人们谈论大数据时,他们意味着能够获取大量数据,分析数据并将其转化为有用的数据。

01具体来说,什么是大数据?

当然,大数据远不止于此?

通常从多个来源获取大量数据

不仅有大量数据,还有不同类型的数据,以及各种数据,以及时变数据,不需要将其转换为特定格式或一致性。

以允许为不同目的分析相同数据池的方式分析数据

尽快实现所有这一切。

早些时候,业界提出了一个首字母缩略词来描述这四个方面中的三个: VVV,音量(大量),多样性(不同类型的数据和数据随时间变化的事实)和周转率(速度)。

02大数据和数据仓库

VVV的首字母缩写忽略了数据的关键概念,不需要永久更改(转换)进行分析。这种非破坏性分析意味着组织可以为不同目的分析相同的数据连接池,并可以为不同目的收集源分析数据。

(注意:数据库连接池负责分配,管理和释放数据库连接。它允许应用程序重用现有数据库连接而不是重新建立一个;释放空闲时间长于最大空闲时间的数据库连接以避免正在发布,因为数据库连接因数据库连接而丢失。这项技术可以显着提高数据库操作的性能。)

相比之下,数据仓库旨在分析特定目的的特定数据,数据结构化并转换为特定格式,原始数据基本上在特定目的的过程中被销毁,而不是其他称为提取,转换的数据。并加载(ETL)。数据仓库的ETL方法有限地分析特定数据以进行特定分析。当您的所有数据都在您的交易系统中时,这非常棒,但在当今的互联网连接世界中,数据来自各地。

备注:ETL是English Extract-Transform-Load的缩写,用于描述从源到目标的数据提取,转换和加载过程。术语ETL更常用于数据仓库,但其对象不仅限于数据仓库。

ETL是构建数据仓库的重要部分。用户从数据源中提取所需数据,通过数据清理数据,最后根据预定义的数据仓库模型将数据加载到数据仓库中。

信息是现代企业的重要资源,是企业运用科学管理,决策分析的基础。目前,大多数企业花费大量的资金和时间来构建联机事务处理OLTP的业务系统和办公自动化系统,用来记录事务处理的各种相关数据。据统计,数据量每23年时间就会成倍增长,这些数据蕴含着巨大的商业价值,而企业所关注的通常只占在总数据量的2%4%左右。因此,企业仍然没有最大化地利用已存在的数据资源,以至于浪费了更多的时间和资金,也失去制定关键商业决策的最佳契机。于是,企业如何通过各种技术手段,并把数据转换为信息,知识,已经成了提高其核心竞争力的主要瓶颈。而ETL则是主要的一个技术手段。

数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进,监视时间,成本,质量以及控制。数据仓库是决策支持系统(DSS)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题,集成性,稳定性和时变性。

XX决策支持系统(DSS)基于管理科学,运筹学,控制论和行为科学。它使用计算机技术,模拟技术和信息技术作为支持半结构化决策问题的手段。用于决策活动的智能人机系统。该系统为决策者提供帮助定义决策目标和识别问题,建立或修改决策模型,提供选项以及评估和优化解决方案所需的数据,信息和背景信息。通过人机交互功能进行分析,比较和判断,为正确的决策提供必要的支持。它通过与决策者一起测试决策者的要求和假设的一系列人机对话过程,为决策者提供各种可靠的解决方案,为决策者提供支持。

决策支持系统通常包括交互式语言系统,问题系统和数据库,模型库,方法库和知识库管理系统。在某些特定的决策支持系统中,可能没有单独的知识库及其管理系统,但通常需要模型库和方法库。由于不同的应用领域和研究方法,决策支持系统的结构可以采取多种形式。

决策支持系统强调对管理决策的支持,而不是决策的自动化。它支持的决策可以是任何管理级别,例如战略,战术或执行级别的决策。

但是,不要认为大数据会使数据仓库过时。大数据系统允许您在很大程度上处理非结构化数据,但生成的查询结果并不像数据仓库那么复杂。毕竟,数据仓库旨在深入挖掘数据,并且这样做是因为它已将所有数据转换为一致的格式,允许您向下钻取,就像构建多维数据集一样。

多年来,数据仓库供应商一直在优化他们的查询引擎,以回答典型的业务环境问题。大数据可以让你从更多的数据源中获取更多的数据,但分辨率要低一些。因此,在未来一段时间内,我们将与传统的数据仓库一起并存。

03技术突破大数据背后

为了完成大数据量,品种,非破坏性使用和速度的四个方面,包括分布式文件系统(hadoop)的开发,一种意识到不同数据的方法(Google的Map,Reduce以及最近的Apache Spark) ,以及云/互联网基础设施,用于根据需要访问和移动数据。

直到大约十几年前,在任何一个时间都不可能操纵比较少的数据。(嗯,我们都认为数据仓库当时是巨大的,随着互联网的产生和连接的数据到处都是这样的背景)。对数据存储的数量和位置的限制,计算能力以及处理来自多个数据源的不同数据格式的能力使得这项任务几乎不可能完成。

然后,在2003年左右的时间里,Google的研究人员开发了Map,Reduce。这种编程技术通过首先将数据映射到一系列键/值对来简化处理大数据集,然后对类似的键执行计算以及它们减少到单个值,以数百或数千个低位并行处理每个数据块成型机。这种巨大的并行性允许Google从越来越大量的数据中产生更快的搜索结果。

在2003年,谷歌创造了两个突破,使得大数据成为可能:一个是Hadoop的,它由两个关键服务组成:

使用Hadoop的分布式文件系统(HDFS)可靠的数据存储

使用称为地图,降低的技术进行高性能并行数据处理。

XX

Hadoop运行在一系列商品上,没有共享服务器。随意添加或删除Hadoop集群中的服务器;系统检测并补偿任何服务器上的硬件或系统问题。换句话说,Hadoop是自我修复的。尽管系统发生了变化或故障,但它可以提供数据并运行大规模,高性能的处理作业。

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),称为HDFS。 HDFS具有高度容错能力,旨在部署在低成本硬件上;它还提供高吞吐量来访问大数据集(大数据)集应用程序的应用程序数据。 HDFS放宽了POSIX的要求,可以在文件系统中传输访问数据。

Hadoop框架的核心设计是:HDFS和Map,Reduce。 HDFS为大量数据提供存储,Map和Reduce为大量数据提供计算。

虽然Hadoop提供了一个数据存储和并行处理平台,但真正的价值来自于该技术的附加,交叉集成和自定义实现。为此,Hadoop提供了向平台添加功能和功能的子项目:

Hadoop Common:支持其他Hadoop子项目的常用工具。

Chukwa:用于管理大型分布式系统的数据收集系统。

HBase:可扩展的分布式数据库,支持大型表的结构化数据存储。

HDFS:一种分布式系统,提供对应用程序数据的高吞吐量访问。

Hive:一种提供数据聚合和即席查询的数据仓库基础架构。

Map/Reduce:用于在计算集群上分布式处理大型数据集的软件框架。

Pig:用于并行计算的高级数据语言和执行框架。

ZooKeeper:分布式应用程序的高性能协调服务。

Hadoop平台的大多数实现至少包括其中一些子项目,因为它们通常需要开发大数据。例如,大多数组织选择将HDFS用作其主要分布式文件系统,将HBase用作可存储数十亿行数据的数据库。几乎可以使用Map/Reduce或更新Spark,因为它们为Hadoop平台带来了速度和灵活性。

通过Map和Reduce,开发人员可以创建可以并行处理大量非结构化数据的程序,这些程序可以在分布式处理器上或在单独的计算机上并行处理。 MapReduce框架分为两个功能区域:

Map,一种将工作分配到分布式集群中的不同节点的函数。

减少功能:组织工作并将结果解析为单个值的能力。

Map和Reduce的主要优点之一是它具有容错能力。它通过监视集群中的每个节点来实现;每个节点都需要定期报告,完成工作和状态更新。如果节点保持比预期更长并且间隔更长,则主节点将记录并将工作分配给其他节点。

Apache Hadoop是一个使用Map和Reduce核心的开源框架,两年后开发。 Hadoop最初用于索引现在未知的Nutch搜索引擎,现在几乎所有主要行业都使用Hadoop进行大规模的大数据工作。由于Hadoop的分布式文件系统和yarn(另一个资源协商员),该软件允许用户在数千台设备上处理大型数据集,就好像它们在一台巨大的机器上一样。

Nutch是开源Java实现的搜索引擎。它提供了运行我们自己的搜索引擎所需的所有工具。包括全文搜索和网络抓取工具。

Nutch组成:

Crawler爬虫和查询搜索器。

爬网程序主要用于从Web抓取和索引网页。

Searcher主要使用这些索引来检索用户的搜索关键字以生成搜索结果。

两者之间的接口是索引,因此删除索引并且两者之间的耦合程度较低。

将Crawler和Searcher的两个部分分开的目的是使这两个部分分布在硬件平台上。例如,Crawler和Searcher可以分别放在两台主机上,这样可以提高性能。

Crawler侧重于两个方面,Crawler的工作流程以及所涉及的数据文件的格式和含义。数据文件主要包括三种类型,即Web数据库(WebDB),一系列段加索引,三者的物理文件存储在webdb子文件夹下的db目录下的crawl结果目录下,segments文件夹和索引。夹。那么三者中存储的信息是什么?

抓取会生成很多细分。每个段在单个爬网周期中存储爬网程序爬网程序爬网的页面以及这些页面的索引。当爬虫爬行时,它将根据WebDB中的链接关系生成每个爬网周期所需的fetchlist(爬虫根据WebDB生成要爬网的网页的URL集),然后是Fetcher(下载线程) )传递fetchlist。 URL会对这些页面进行爬网和索引,然后将其保存到段中。细分受时间限制。当抓取工具重新抓取这些页面时,上一次抓取生成的细分无效。在存储中。 Segment文件夹以生成时间命名,因此我们可以删除过时的段以节省存储空间。

索引是爬网程序爬网的所有网页的索引,通过合并所有单个段中的索引获得。 Nutch使用Lucene技术进行索引,因此Lucene中索引操作的接口对Nutch中的索引同样有效。但是,应该注意的是,Lucene中的片段与Nutch不同。 Lucene中的段是索引索引的一部分,但Nutch中的段只是WebDB的每个部分的内容和索引,最后是由它生成的索引。该细分与此无关。

Web数据库(也称为WebDB)在爬网程序爬网的已爬网页面之间存储链接结构信息。它仅用于爬虫爬虫工作,与Searcher的工作无关。 WebDB存储有关两个实体的信息:页面和链接。 Page实体通过描述网络上的网页的特征信息来表示实际的网页。由于网页具有许多要描述的描述,因此WebDB通过使用网页的URL和网页内容的MD5索引方法来索引网页实体。 Page实体描述的网页特征主要包括网页中的链接数,抓取网页的时间等,以及网页的重要性。类似地,链接实体描述了两个页面实体之间的链接关系。

工作步骤:

在Nutch中,Crawler操作的实现是通过一系列子操作完成的。这些子操作Nutch提供了可以单独调用的子命令行。以下是这些子操作和命令行的功能说明,命令行在括号中。

1.创建一个新的WebDb(admin db -create)。

2.将爬网起始URL写入WebDB(注入)。

3.基于WebDB生成获取列表并编写相应的段(生成)。

4.根据获取列表中的URL获取页面(获取)。

5.根据抓取页面更新WebDb(updatedb)。

6.循环执行步骤3-5,直到达到预设的抓握深度。

7.根据网页分数和WebDB获取的链接更新分段(updatesegs)。

8.索引已爬网页面(索引)。

9.丢弃索引中的重复页面和重复URL(重复数据删除)。

10.合并段中的索引以生成用于检索的最终索引(合并)。

2009年,加州大学伯克利分校的研究人员开发出Apache Spark作为MapReduce的替代品。由于Spark使用内存存储来并行执行计算,因此它可以比MapReduce快100倍。 Spark可以作为独立框架或在Hadoop中运行。

使用Hadoop,仍然需要一种存储和访问数据的方法。这通常通过NoSQL数据库完成,例如MongoDB(例如CouchDB或Cassandra),它处理分布在多台机器上的非结构化或半结构化数据。与数据仓库不同,大量数据和数据类型组合成统一格式并存储在单个数据存储中。这些工具不会改变数据的基本性质或位置 - 电子邮件仍然是电子邮件,传感器数据仍然是传感器数据 - 几乎可以存储在任何地方。

尽管如此,在您执行某些操作之前,将大量数据存储在具有多台计算机的数据库中并不好。这是大数据分析的原则。 Tableau,Splunk和Jasper BI等工具允许您解析此数据以识别模式,提取含义并发现新的见解。您的工作将根据您的需求而有所不同。

大数据开发,高薪必须拥有全套资源[免费访问]

Oracle高级技术总监多年来精心创建了完整的课程体系[大数据,人工智能开发必看],全面帮助大数据开发零基础+入门+推广+项目=高薪!

怎么弄它:

仍旧的规则长期保持不变

1.评论文章,没有字数限制,一个字就行!

2.成为小编的粉丝!

3.私信小编:“大数据开发教程”!

谢谢大家,祝大家学习愉快! (学完本教程后一定要努力学习,多练习!)

日期归档
  • 友情链接:
  • 沈阳新闻网 版权所有© www.carpenterleasing.com 技术支持:沈阳新闻网| 网站地图