開源
開源名稱 開源簡介
SPARK Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用并行框架,Spark,擁有Hadoop MapReduce所具有的優點;但不同于MapReduce的是Job中間輸出結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark能更好 地適用于數據挖掘與機器學習等需要迭代的MapReduce的算法。 Spark 是一種與 Hadoop 相似的開源集群計算環境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負載方面表現得更加優越,換句話說,Spark 啟用了內存分布數據集,除了能夠提供交互式查詢外,它還可以優化迭代工作負載。 Spark 是在 Scala 語言中實現的,它將 Scala 用作其應用程序框架。與 Hadoop 不同,Spark 和 Scala 能夠緊密集成,其中的 Scala 可以像操作本地集合對象一樣輕松地操作分布式數據集。 盡 管創建 Spark 是為了支持分布式數據集上的迭代作業,但是實際上它是對 Hadoop 的補充,可以在 Hadoop 文件系統中并行運行。通過名為 Mesos 的第三方集群框架可以支持此行為。Spark 由加州大學伯克利分校 AMP 實驗室 (Algorithms, Machines, and People Lab) 開發,可用來構建大型的、低延遲的數據分析應用程序。
Hadoop Apache Hadoop 是一個能夠對大量數據進行分布式處理的開源軟件框架。由 Apache Software Foundation 公司于 2005 年秋天作為 Lucene的子項目 Nutch的一部分正式引入,Hadoop的開發者Doug Cutting最初開發Hadoop是為了滿足開源web搜索引擎Nutch的集群處理需求,Cutting實現了MapReduce功能和分布式文件系 統(HDFS),并整合成為Hadoop。Hadoop的命名靈感來自Cutting兒子的玩具大象。通過MapReduce,Hadoop將大數據分解 成小塊分配給各個通用服務器節點進行分布處理。Hadoop是目前最流行的大數據(包括非結構化、半結構化和結構化數據)存儲和處理技術。Hadoop的 開源授權方式是Apache License2.0。
R R是開源編程語言和軟件環境,被設計用來進行數據挖掘/分析和可視化。R是S語言的一種實現。而S語言是由 AT&T貝爾實驗室開發的一種用來進行數據探索、統計分析、作圖的解釋型語言。最初S語言的實現版本主要是S-PLUS。但S-PLUS是一個商業軟件,相比之下開源的R語言更受歡迎,被人們譽為“統計界的Red Hat”。 在KDNuggets2012年做的“過去與十二個月你在實際項目中使用的數據挖掘/分析工具”的 調查中,R以30.7%的得票率榮登榜首,超過微軟Excel(29.8%)和Rapidminer(2010和2011年排名第一)。值得注意的是,今 年排名前五名的數據挖掘工具中有四個是開源軟件。此外R還在擊敗SQL和Java,在最受歡迎的數據挖掘應用編程語言排行榜中排名第一。
Cascading 作為Hadoop的開源軟件抽象層,Cascading允 許用戶使用任何基于JVM的語言在Hadoop集群上創建并執行數據處理工作流。Cascading能隱藏MapReduce任務底層的復雜性。 Chris Wensel設計Cascading的目的是成為MapReduce的一個備用API。Cascading經常被用于廣告定向統計、日志文件分析、生物信 息學分析、機器學習、預測分析、web內容文本挖掘以及ETL應用。Cascading的商業支持由Concurrent公司提供,該公司由 Cascading的設計者Wensel創建。使用Cascading的知名網站包括Twitter和Etsy。Cascading在GNU下開源。
Keywords: 文件加密 加密軟件 數據安全
云南快乐十分开奘查询