Flink ��һ��ģ��ʹ��-��ƿ��

ժҪ��Bվ����ʦ��ʦ�� Flink Forward Asia 2023 �� AI ��ר��ķ��ҪΪ��Ĳ��֣�

ģ��

��һ��

��Ż�

δ��չ��

һ�� ģ��

��һ��ǳ��򻯲��ҵ��͵��ʵʱ��̡�

ǰ��һ�� Show �� Click ��Ҳ��ǵ��չ��ʵʱ��ϱ�� kafka �� Flink �� Join�� Kafka ��ٽ��һ�� Flink ��ɣ�� Kafka ��ģ��ʵʱѵ��ʹ�á�ĿǰBվ�󲿷��Ƽ��·��ʵʱ��ݼܹ��Kafka ��м��ݣ�ȫ�� dump �� Hive ��ߵ� Iceberg ��ȥ��Ҫ��ʷ��ģ��߲�� Spark ��Ƶ�һ��洢�� Hive ��ȥ��ģ��ѵ��ʹ�á�

��·��Ҫ��Ӧ��Ӧ��ģ�͵��Լ��·һ��ǳ��ڶ��ڵġ�

��ֵ�һЩ��⣺

˫��·��ܹ��
�û��Ҫѧϰ Spark ��Ҫѧ Flink �� Flink ��ܶ��﷨��ڵ� Spark ��΢��Щ��һ��󲿷ֿ��ͬѧ��Ǵ��ߵ�ģ��ת��ʵʱ��ʵ��бȽϸߵ�ѧϰ�ɱ��ǱȽϸߵ�ת��ɱ��
��һ��
�ܶ� SQL ��Ȼ��һ��ĵ��Ǽ��΢С�Ĳ�𣬱�� Flink ֧�� ANSI SQL ��׼�� Spark ��ǵ�ǰ�汾��ȫ֧�֡��û��ߵ��ʱ��Ч��ܺã�ʵʱһ��Ч��ѣ��ͦ��ģ�һ��Ų��շ��Դ�� UDF ��Ϊ��һ��ģ��Ҫһֱ��ּ��ݵ��ʵ�ǱȽ�ʹ��ġ�
��ά
��Ŀ��ڼ�� UDF��һЩ�� Java �� UDF ��Ҳ��һЩ�� JNI �� UDF�� Spark��Flink ��϶��ֱ�ʵ��ˡ��ڳ��ڿ��˵��ĳ��˵��Ҫ�� UDF �� Tensorflow�� Linux �ں˰汾Ҫ��Ҳ�Ƚϸߣ��Ļ��Ҫ��ű仯��Ƕ��棬�Ƕ��涼Ҫȥ��ʵ�ͷǳ��ˡ��ǵ�ҵ�񳡾����ʵ��Ǹ��ܴ�ʹ�㡣

��һ��

��汳��ǲ��һ��ķ��ǰ��⡣��Ŀǰʹ�õ� Flink 1.15 �汾��Ѿ��һ��Ƚϳ��İ汾�� Flink �� Spark ��߳��ʵ��ǰ�潲��û��˵��ǿ��Խ��ġ�

��ǻ��ļܹ��û�� Adhoc �� ETL ͨ�� Client �ύ�� Flink ��Ⱥ��Դ��֧�� Yarn �� K8S ��Shuffle �ܹ�ǰ��ʹ��Flink Remote Shuffle��Ŀǰ��Ѿ�Ǩ�Ƶ� Celeborn��յĽ��д�� Kafka �� Hive ��֧�ֻ��ѧϰ��һЩҵ��Ӧ�á�

��ǶԽ��һ��ľ��幤��

�� Flink 1.15�İ汾��ͨ�˹�˾�ڲ��е� Adhoc/ETL ��ڣ��㷨ͬѧ�� CLI ��ύ��ͨ��ϵ�ĺô��Զ��Flink ��޷�Խӵ��ǰ��̬��ֻ��Ҫרע��汾��Ŀ��
�ڶ��֧�� Flink ��ʵʱ�� k8s ��ߵ� Yarn ��Դ��Ŀǰʵʱ��һ��Ҫ��Ǩ�Ƶ� K8S��ߵ�ǰ�� YarnΪ��
��ʵʱ��·��ж��ִ洢�ģ��һ��ζ��ҲҪ֧�ֶ�洢��˵ʵʱ�� Redis �õıȽ϶࣬��߿��ܴ󲿷ֶ�� Hive �Ϳ��ԡ��һ��ϣ��Щ�� Flink �� Connector �� Batch ��Ż��Ϊ��ʵ�ʵ�ʹ�ù��У��ᷢ�ֲ��Ż��Ļ��кܶ�ܶ�С��⣬��Ž�һ�¡�
��һ��Э��ҵ��Ǩ�ơ�Ŀǰ��ҵ��AI�Ƽ��൱һ��ֵ��ߵ��У��Ѿ��Ǩ�� Flink Batch ��ȥ�ˡ�

��﷨��һЩϸ�ڵ㡣

��һ��֧�� Hive Module��Ҫ�Ǽ�� HIVE UDF��ȷ�� Batch�� ʹ�ã�Streaming ��Ҳ�Ƚϴ󡣶��ڴ󲿷��û��˵��ģ��ʵʱģ�ͣ��ܺܶ� UDF ��ϵͳ�� UDF��ǲ��Ҫȥ��ظ��Ŀ��
�ڶ��ҵ�񣬰��û��ʹ�õ��﷨��֧�֡��ʱ��û��ܳ��ĳ��﷨��ʵʱû�л��߲��ã��Ҳ��Ӧ��Ż��ҵ�񾭳�� Add Jar ��ʵʩ��Դ��
��ʵ��ʹ�ù��з��֣��û��˵��ܶ�UDF��ΪҲ��΢��һ��ġ��UDF��Ϊ��֣��ͬģʽ��ͬ�� Now �� Streaming ��Ƿ� Deterministic�� Batch ��£��û�� Deterministic �ġ��˼��ݣ��ݰ汾�Զ��ѡ��Լ��Ϊ��﷨�� UDF ��һЩ��С��ϸ�ڴ��һЩ�ӡ�

�� Connector ��Ż��Ҳ��ģʽ�ļ��ݸ��졣

Streaming �ӳ��У�Batch ��ȣ�Ĭ�ϲ�� Streaming ��ƣ��ģʽ��Ӧ��ʵ Streaming ��һ��ӳ��еġ��󲿷��ʵʱ��ӳ��ǱȽ��еġ��˵��ɣ�д�� Kafka �� Count ��100��д�룬��߳�ʱ100��д��ȥ��ڰ��ֱ��õ��ȥʹ�ã��ֵ��̫��ˡ�
Streaming ��һЩ Static ��ӵ��Ż��û�п� Restart ��ܣ��ô��ʵʱ��ӵ��ڴ󲿷ֳ��¶��һ�¡�Batch �� Task ��ȫ��һ��ģ��ɺ��ֱ�Ӵֱ��Ĺرյ��ͻ��⡣��ʵ Streaming ��Ҳ�ǲ��ģ�ֻ�� Batch ��Ŵ��⣬��ⷽ��Ҳ��Ż��

��Ĵ��Դ��á��Ϊ��ҵ��Ҫ�� K8S ��Ⱥ�ϣ�� Flink ��Ҳϣ�� K8S �ϡ�K8S ��Ϊ��ͦ��ģ��Դռ�ô�ͷ ETL ��ϣ��Դռ�ý��١��ȫ�෴��õıȽ��õıȽ��١��Ȼ��Ǵ��Դռ�ã��Ҳ��û��԰�һЩ�Ƚ�ռ��Դ�Ĳ��񶪵��ҹ��У��ܱȽϳ�ֵ��Դ��

��ʵ�ʰ��ʱ��ǻ��һЩ��޷��ȫ��⡣��ǻ��ڹ�˾�ڲ��һ��첿��ܣ��ͬһ�� K8s ��Ⱥ�ϣ��Դ��ͼ��һ��Դ��ͼ��ῴ��еĻ��Դ��һ��ǻ첿��Դ��ͼ��ܿ��Щʣ��Դ��ͼ��ȼ��ǱȽϵ͵ģ��Դ��ŵ��»��񡣱��˵��߻�� 100% ��Դ��ͼ��ҵ��ʵ��ռ�� 30% ��Դ��ʣ�µ� 70% ��Դ��Ա��첿��Դ��ͼ��Դ��ͼ��е��ȡ�

��һ��Ч��ǰ��ʱ��ͼ�ġ�

ͼ�Ͽ��Կ�� 2 �㵽 6 ��ң��ռ�õ��Դ�Ƿǳ��ٵģ��ʱ��ռ�õ��Դ�Ǻܴ�ģ��Դ�ܱ��ڰ��Ļ��ʵ��Դʹ��Ҳ��ͣ��ҵ��ԣ��Կ��Դ��ʴ��70%��ҡ��Ϊ��õı��ֵ�� 80% ��ң��ҵ��Բ�� 80% ��Դ��ʣ�µĶ��ǿ��Ա��ҵռ�á�

��֮�⣬��һ��飬��ǰ� flink �� JDK17��Ϊ��Ƿ��ֻ첿֮��Դƿ�� CPU �˶��ڴ��ˣ��ڵͰ汾�� Java ��˵��ڴ��Ǹ��Եģ��Ǻ��ڻ첿�� JDK12 ֮�� Jvm �� GC ֧��ϵͳ��ڴ淵��Ĵ��ݳ��Ǿ��ö��ܵ�Ҫ��Ҳû�иߵ�Ҫȥ��ڴ��Ч�ʵ��̶ȣ��ǰ� Flink ��л��е�� JDK17��Ҳ��ڴ淵��Ĺ��ܡ�

��ߵ��Ⱥ��ڴ��ʡ�ǳ�� 15% ��ܱȽϺõ��Դ��á�

�� Ż�

��һ�¿�ܲ��Ż��

��Ⱦ�� Shuffle ��Ż��ҵ��ʹ�ù��У�shuffle ��ǱȽϳ��ġ��ʼ�õ� Flink Netty Shuffle��ȶ��ԱȽϲ��ش��̵� IO ѹ��ܴ��Դռ��Ҳ�Ƚ϶ࡣ��ǵ��ҵ��һЩ��л�� Apache Celeborn Shuffle ��80̨�� 14tb �� SSD �洢�ļ�Ⱥ�ϣ��Դ洢��200T�� Shuffle ��Ͽ��ȶ��黹��һ��ô��Ǵ��룬ǰ��˵��첿�ļܹ��Streaming ��Ǵ��һ��ģ��ǰ��ٷ��Ҳ��һ��һ��ļܹ��ʵ�Դ��̵��ǳ��ң��ֻ�� IO �� Cgroup ��߷��̹��ʵ��ά�ɱ��ܸߡ�ʵ�� Streaming ��ĿǰҲ�� Tiered Storage��Ӧ��Ҳ��滮��ϣ�� Flink ��ϰѱ��صĴ洢�ŵ�Զ��ȥ��Ļ�� Scala ��

Ȼ�� Shuffle �Ż��ĵڶ��ڲ��ֳ�� Pipeline ��ģʽ��ʵ��һ�� Hybrid ģʽ��֮�䣬��ǲ��⣬��µİ汾Ӧ��ǽ��ˡ�� Pipeline ģʽ�£��ǲ��̣�Ŀǰ��ǲ��˵��G��T�ĳ��ܱȽϺõ��Ч�ʣ��Ч��˵��Ǻ� Presto ��һЩ�Ա꣬�Ȼ��һ�㵫û�в��ر�ࡣ��ֳ��Ҳ��Ƽ��û�� Pipeline ģʽ��

��ͼ��һЩ DAG ��Ż��ֱ��е� Flink ��ȥ֮��ʵ��ֿ��ܻ��кܶ��õ� Shuffle�� Source �� Map ��㣬��֮��һ�� Shuffle��ʵ��ȫû�б�Ҫ��

�ܶ��һЩ�� Shuffle �ĳ��ʵ��϶��Ƽ��û��Ĭ�ϵ� NG ��Ǿ��ܹ�ȫ�� chain ��һ��ģ�� Sink Ĭ�ϵ� Sort ��Ҳ�ر��ˣ��ʵ��ϼ��Ͽ�� DAG ��ʵ��Ǵ�ͷ��β�ģ�Ч�ʷǳ��ߡ�

��Щ��£��˵ Source ��ݲ��Ǽ��ѹ��ǳ��󡣱��˵��Щ��Ƚϸ��ӣ��Ҫ��һЩ Tensorflow �⵼��Ƚ��Ҳ��֧��Щ��Ĳ��ԣ�� Source ��Ҫ��ֿ��ļ��ĸ��࣬��ĿǰҲ�ǿ��Եġ�

��һ��ǵ��Ȳ��Ż��

��ǰ��Ҳ˵��ǲ��õ�һ��Դ��첿��ʹ��Դ��Ҳ��һЩ��⣬Streaming �� Batch �Ե��ʵ��ͬ�ġ�Streaming �� Long Running �ģ�Container ��ȵ�Ƶ��ʵ��Ե��ǱȽϵ͵ģ��Ҫ��Ǻܸߡ�� Batch ��ǣ��Ƶ��У�ÿ��ִ�ж��Ǽ��ǧ�� Container ��룬��Դ��ŵ��£��Ҳ��һֱ�� Container��ǹ��һ�� Batch ��Ƚ϶��ʱ��Streaming ��û��뵽 Container �ģ��ڵ��߳��档��Ҫ��е��Ĳ�֣� Streaming ҵ��ǻ�� K8s Ĭ�ϵ� Default Scheduler��Batch ��ǻ��Ŀǰ�󲿷ֹ�˾��ѡ�õ� Volcano ��

�ڵײ��Դ�ϣ�Streaming ҵ�� K8S �� Label ��룬Ҳ��롣�� Batch��ʵ��ͨ�� Volcano ��һЩ Capacity ��ƣ��֤��Դ��ԡ�ǰ��Ҳ˵��첿��Դ��ȼ��Ƚϵͣ�� Streaming ҵ��Դ��£��Դ��㣬Batch ҵ��ᱻ��

�ġ�δ��չ��

̽��һ�塣Ŀǰ��в�� Interval Join �Ȼ�û�취��һ�壬��Ѷ�Ҳ�Ƚϴ��һЩ Apache Paimon �ķ��Ҳ��Կ��ܲ��ܴӴ洢��⡣
�ڶ�� DAG/Shuffle �Ż��ܡ��Ǻ� Spark �� Presto ��һЩ�Ա�֮��Ŀǰ1.15�汾��һЩϸ�ڵĵط�Ч��û��ô�ã��бȽϴ��ռ䡣
��һ�� Flink ֧�ָ�� UDF��ҵ��Ҳϣ��֧�ֳ�� Hive �� Presto/Spark ��Щ��е� UDF ��Щ��ģ��Ҳ��ʵʱ��Ҳ�ǵ�ǰ��Ҫ��Ǩ�Ƴɱ�֮һ��