文章詳情頁

JAVA spark創(chuàng)建DataFrame的方法

瀏覽：5日期：2022-08-25 17:52:40

述說正傳，接下來開始說正事。

以前用Python和Scala操作Spark的時候比較多，畢竟Python和Scala代碼寫起來要簡潔很多。

今天一起來看看Java版本怎么創(chuàng)建DataFrame，代碼寫起來其實差不多，畢竟公用同一套API。測試數(shù)據(jù)可以參考我之前的文章。

先來總結(jié)下Spark的一般流程：

1，先創(chuàng)建Spark基礎(chǔ)變量，spark，sc

2，加載數(shù)據(jù)，rdd.textFile，spark.read.csv/json等

3，數(shù)據(jù)處理，mapPartition, map，filter，reduce等一系列transformation操作

4，數(shù)據(jù)保存，saveAstextFile，或者其他DataFrame方法

祭出代碼

package dev.java;import dev.utils.Utils;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.Dataset;import org.apache.spark.sql.Row;import org.apache.spark.sql.RowFactory;import org.apache.spark.sql.SparkSession;import org.apache.spark.sql.types.StructType;import scala.Tuple2;import java.util.List;public class Spark1 { private static final String fileData = 'seed'; private static final String fileSave = 'result'; private static SparkSession spark = SparkSession.builder().appName('Java-Spark').master('local[*]').config('spark.default.parallelism', 100).config('spark.sql.shuffle.partitions', 100).config('spark.driver.maxResultSize', '3g').getOrCreate(); private static JavaSparkContext sc = JavaSparkContext.fromSparkContext(spark.sparkContext()); public static void main(String[] args) { Utils.delete(fileSave); // t1(); } private static void t1() { JavaRDD<Row> rdd = sc.textFile(fileData).map(v -> { String[] parts = v.split('t'); return RowFactory.create(parts[0], Long.parseLong(parts[1]));}).filter(v -> v.getLong(1) >= 10000).sortBy(v -> v.getLong(1), false, 100).coalesce(2); Dataset<Row> df = spark.createDataFrame(rdd, StructType.fromDDL('title string, qty long')); df.write().csv(fileSave); spark.stop(); }}

以上就是JAVA操作spark創(chuàng)建DataFrame的方法的詳細(xì)內(nèi)容，更多關(guān)于JAVA Spark 創(chuàng)建DataFrame的資料請關(guān)注好吧啦網(wǎng)其它相關(guān)文章！

Java

上一條：Java HashMap實現(xiàn)原理分析（一）下一條：Java NIO異步文件通道原理及用法解析

相關(guān)文章：

1. js實現(xiàn)跳一跳小游戲2. JVM之class文件結(jié)構(gòu)3. js實現(xiàn)貪吃蛇小游戲（加墻）4. XMLDOM對象方法：對象屬性5. python對批量WAV音頻進(jìn)行等長分割的方法實現(xiàn)6. Html5播放器實現(xiàn)倍速播放的方法示例7. asp.net core 認(rèn)證和授權(quán)實例詳解8. CSS linear-gradient屬性案例詳解9. Ajax報錯400的參考解決辦法10. Python中Anaconda3 安裝gdal庫的方法

排行榜

					
					js實現(xiàn)跳一跳小游戲
js實現(xiàn)貪吃蛇小游戲（加墻）
JVM之class文件結(jié)構(gòu)
Python進(jìn)行統(tǒng)計建模
Python3 操作 MySQL 插入一條數(shù)據(jù)并返回主鍵 id的實例
Python如何根據(jù)時間序列數(shù)據(jù)作圖
編寫高質(zhì)量JavaScript代碼
IDEA中用maven連接數(shù)據(jù)庫的教程
關(guān)于Spring AOP使用時的一些問題匯總
JSP實現(xiàn)百萬富翁猜數(shù)字游戲
三個不常見的 HTML5 實用新特性簡介