亚洲an日韩专区在线-亚洲an天堂an在线观看-亚洲a区视频-亚洲a图-免费黄网大全-免费黄网在线

解讀大數(shù)據(jù)以及大數(shù)據(jù)的常用工具

2018-04-24 14:42:43 發(fā)源地大數(shù)據(jù)  點擊量: 評論 (0)
大數(shù)據(jù)工具是什么?顧名思義,大數(shù)據(jù)工具就是用戶大數(shù)據(jù)工作的工具統(tǒng)稱,比如從事大數(shù)據(jù)開發(fā)工作會用到java、hadoop、spark、storm、es等,

大數(shù)據(jù)工具是什么?顧名思義,大數(shù)據(jù)工具就是用戶大數(shù)據(jù)工作的工具統(tǒng)稱,比如從事大數(shù)據(jù)開發(fā)工作會用到java、hadoop、spark、storm、es等,而從事大數(shù)據(jù)可視化工作需要很多的數(shù)據(jù)可視化工具,比如echarts、samrtbi、tableau、D3.js等,大數(shù)據(jù)工作人員利用這些工具來進行日常的大數(shù)據(jù)工作。

下面我們來介紹一些大數(shù)據(jù)工作中用到的工具。

1. Hivemall

Hivemall結合了面向Hive的多種機器學習算法。它包括諸多高度擴展性算法,可用于數(shù)據(jù)分類、遞歸、推薦、k最近鄰、異常檢測和特征哈希。

支持的操作系統(tǒng):與操作系統(tǒng)無關。

Hivemall官網(wǎng)鏈接:https://github.com/myui/hivemall

2. Mahout

Mahout 是 Apache Software Foundation(ASF) 旗下的一個開源項目,提供一些可擴展的機器學習領域經典算法的實現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應用程序。Mahout包含許多實現(xiàn),包括聚類、分類、推薦過濾、頻繁子項挖掘。此外,通過使用 Apache Hadoop 庫,Mahout 可以有效地擴展到云中。

Mahout官網(wǎng)地址:http://mahout.apache.org/

3. MapReduce

MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算。概念"Map(映射)"和"Reduce(歸約)",是它們的主要思想,都是從函數(shù)式編程語言里借來的,還有從矢量編程語言里借來的特性。它極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統(tǒng)上。

MapReduce相關文檔:http://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html

4. Oozie

Oozie是一種Java Web應用程序,它運行在Java servlet容器——即Tomcat——中,并使用數(shù)據(jù)庫來存儲以下內容:

● 工作流定義

● 當前運行的工作流實例,包括實例的狀態(tài)和變量

Oozie官網(wǎng)地址:http://oozie.apache.org/

5. Pig

Pig是一種數(shù)據(jù)流語言和運行環(huán)境,用于檢索非常大的數(shù)據(jù)集。為大型數(shù)據(jù)集的處理提供了一個更高層次的抽象。Pig包括兩部分:一是用于描述數(shù)據(jù)流的語言,稱為Pig Latin;二是用于運行Pig Latin程序的執(zhí)行環(huán)境。

Pig官網(wǎng)地址:http://pig.apache.org/

6. Sqoop

Sqoop(發(fā)音:skup)是一款開源的工具,主要用于在Hadoop(Hive)與傳統(tǒng)的數(shù)據(jù)庫(mysql、postgresql...)間進行數(shù)據(jù)的傳遞,可以將一個關系型數(shù)據(jù)庫(例如 : MySQL ,Oracle ,Postgres等)中的數(shù)據(jù)導進到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導進到關系型數(shù)據(jù)庫中。

Sqoop官網(wǎng)地址:http://sqoop.apache.org/

Sqoop相關文檔:http://sqoop.apache.org/docs/1.4.5/index.html

7. Spark

Spark 是一種與 Hadoop 相似的開源集群計算環(huán)境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負載方面表現(xiàn)得更加優(yōu)越,換句話說,Spark 啟用了內存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負載。

Spark官網(wǎng)地址:http://spark.apache.org/

8. Tez

Tez建立在Apache Hadoop YARN的基礎上,這是“一種應用程序框架,允許為任務構建一種復雜的有向無環(huán)圖,以便處理數(shù)據(jù)。”它讓Hive和Pig可以簡化復雜的任務,而這些任務原本需要多個步驟才能完成。

支持的操作系統(tǒng):Windows、Linux和OS X。

Tez官網(wǎng)鏈接:http://tez.apache.org

9. Zookeeper

ZooKeeper是一個分布式的,開放源碼的分布式應用程序協(xié)調服務,是Google的Chubby一個開源的實現(xiàn),是Hadoop和Hbase的重要組件。它是一個為分布式應用提供一致性服務的軟件,提供的功能包括:配置維護、域名服務、分布式同步、組服務等。

Zookeeper官網(wǎng):http://zookeeper.apache.org/

10.finndy+

finndy+是一個分布式的云采集工具,在全球有2000+高匿分布式節(jié)點,機器學習防屏蔽算法,自定義腳本引擎,首創(chuàng)單步調模式,一鍵API輸出。同時擁有海量免費采集規(guī)則和交易市場。

大云網(wǎng)官方微信售電那點事兒

責任編輯:售電衡衡

免責聲明:本文僅代表作者個人觀點,與本站無關。其原創(chuàng)性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。
我要收藏
個贊
?
主站蜘蛛池模板: 九九精品视频在线观看 | 国产精品18久久久久久小说 | 男人的天堂在线观看入口 | 久久99热成人精品国产 | 在线视频久草 | 亚洲国产成人91精品 | 高清一级淫片a级中文字幕 高清一区二区 | 国产男女交性视频播放免费bd | 最刺激黄a大片免费网站 | 在线观看一二三区 | 世界一级毛片 | 欧美做爱毛片 | 久久免费精品国产72精品剧情 | 国产精品亚洲精品日韩已方 | 国产亚洲欧美视频 | 欧美一级三级 | 99re思思 | 中文字幕在线无限2021 | 欧美亚洲一级片 | 欧美一级二级毛片视频 | 高清日本无a区 | 精品老司机在线视频香蕉 | 亚洲免费在线视频播放 | 高清午夜看片a福利在线观看琪琪 | 久草在在线视频 | 免费高清特级毛片 | 狠狠色婷婷丁香综合久久韩国 | 亚洲精品专区一区二区三区 | 黄色三级免费 | 欧美三级黄色大片 | 欧美做爰性欧美 | 国产真实乱子伦精品视 | 久久精品香蕉视频 | 成人免费视频播放 | 日本草草影院 | 不卡一区二区在线 | 在线国产日韩 | 精品日韩在线视频一区二区三区 | 亚洲欧美在线观看视频 | 欧美成人福利视频 | 亚洲人在线播放 |