µÚÒ»ÕÂ֪ʶ»ØÊ×Óë±¾ÕÂÖØµãÏνÓ
ÔÚ×ÏÌÙׯ԰SparkϵÁн̵̳ÄÊ×ÕÂÖУ¬ÎÒÃǽ¨ÉèÁË»ù´¡¿ª·¢ÇéÐβ¢Íê³ÉÁËÊý¾ÝÊÕÂÞ¡£±¾Ðò´Î2ÕÂ×îÐÂÊÓÆµ×ÅÖØÕ¹Ê¾RDD£¨µ¯ÐÔÂþÑÜʽÊý¾Ý¼¯£©ºÍDataFrame£¨½á¹¹»¯Êý¾ÝÁýͳ£©ÔÚÂþ»Êý¾Ý´¦Öóͷ£ÖеÄÐͬӦÓá£Í¨¹ýBilibiliÂþ»ÕæÊÊÓû§»ÏñÊý¾Ý£¬½Ì³ÌÑÝʾÁËÔõÑùʵÏÖÍòÍò¼¶Âþ»±êÇ©µÄ¿ìËÙÏ´åªÓëͳ¼Æ£¬ÕâÕýÊǹ¹½¨ÍƼöϵͳµÄÒªº¦Ô¤´¦Öóͷ£°ì·¨¡£
Âþ»ÌØÕ÷¹¤³ÌÈ«Á÷³Ì½âÃÜ
ÊÓÆµÖÐÌØÊâÒýÈËעĿµÄÊÇSpark MLlibÔÚÌØÕ÷ÌáÈ¡ÖеÄÓ¦ÓÃʵ¼ù¡£Õë¶ÔÂþ»Æ½Ì¨µÄ¶àÔª»¯Êý¾Ý£¨°üÀ¨ÔĶÁʱ³¤¡¢µãÔÞÐÐΪ¡¢¸¶·Ñ¼Í¼µÈ£©£¬½²Ê¦ÏêϸÑÝʾÁËÔõÑù¹¹½¨TF-IDFÌØÕ÷¾ØÕó£¨´ÊÆµ-ÄæÎĵµÆµÂÊͳ¼ÆÒªÁ죩¡£ÄãÊÇ·ñÒÉÐÄÓÚº£Á¿Âþ»±êÇ©µÄ¹ØÁªÆÊÎö£¿½Ì³ÌÌá³öµÄ»ùÓÚFP-GrowthËã·¨µÄƵÈÔÏÍÚ¾ò¼Æ»®£¬ÄÜÓÐÓ÷¢Ã÷Óû§Æ«ºÃµÄÂþ»×éºÏ¼ÍÂÉ¡£
ÂþÑÜÊ½ÍÆ¼öË㷨ʵÏÖϸ½Ú
ÔÚÂþ»ÍƼö³¡¾°Ï£¬ÊÓÆµÉîÈë½â˵ÁËÐͬ¹ýÂËËã·¨ÔÚSparkÂþÑÜʽ¼¯ÈºÉϵÄʵÏÖÔÀí¡£ÌØÊâÖµµÃ¹Ø×¢µÄÊǽÓÄÉALS£¨½»Ìæ×îС¶þ³Ë·¨£©´¦Öóͷ£Óû§-Âþ»ÆÀ·Ö¾ØÕóµÄÕ½ÂÔ¡£½Ì³ÌչʾÁËÔõÑùÔÚBilibiliÂþ»°ÙÒÚ¼¶Óû§ÐÐΪÊý¾ÝÖУ¬Í¨¹ýºÏÀíµÄ·ÖÇøÉè¼Æ£¨Partition Strategy£©½«ÅÌËãºÄʱ½µµÍ63%£¬ÕâÖÖÐÔÄÜÓÅ»¯¶ÔÊµÊ±ÍÆ¼öϵͳÓÈΪÖ÷Òª¡£
ʵʱÊý¾Ý´¦Öóͷ£ÓëÐÔÄܵ÷ÓÅ
µÚ2ÕÂ×îиüÐÂÕ½ÚÐÂÔöÁËStructured StreamingÓ¦Óð¸Àý¡£Í¨¹ýÄ£ÄâÂþ»Æ½Ì¨µÄʵʱÔĶÁÊý¾ÝÁ÷£¬½Ì³ÌÑÝʾÁËÔõÑùʵÏÖ·ÖÖÓ¼¶¸üеÄÂþ»ÈȶȰñµ¥¡£Õë¶Ôпª·¢Õß³£¼ûµÄOOM£¨ÄÚ´æÒç³ö£©ÎÊÌ⣬½²Ê¦ÌØÊâÖ¸³öºÏÀíÉèÖÃexecutorÄÚ´æ²ÎÊýÓëÐòÁл¯·½·¨£¬ÕâÊÇÈ·±£Spark×÷ÒµÎȹÌÔËÐеÄÒªº¦ÉèÖá£
ÏîĿЧ¹ûÓëÉÌÒµ»¯Ó¦ÓÃÑéÖ¤
ͨ¹ýÍêÕû¸´ÏÖBilibiliÂþ»ÍƼöϵͳµÄ½¹µãÄ£¿é£¬¸ÃSparkʵ¼ùÏîÄ¿ÒÑʵÏÖµã»÷ÂÊÕ¹Íû׼ȷÂÊ82%µÄÉÌÒµ»¯»ù×¼¡£ÊÓÆµ×îºó´¦Õ¹Ê¾µÄA/B²âÊÔ£¨±ÈÕÕÊÔÑ飩Êý¾ÝÅú×¢£¬ÐÂÍÆ¼öË㷨ʹƽ̨Óû§ÈÕ¾ùÔĶÁʱ³¤ÌáÉý27%¡£ÕâÖÖ´ÓʵÑéÇéÐε½Éú²úϵͳµÄǨáãÂÄÀú£¬ÕýÊDZ¾½Ì³ÌÇø±ðÓÚͬÀà¿Î³ÌµÄ½¹µã¼ÛÖµ¡£
±¾´Î×ÏÌÙׯ԰Sparkʵ¼ùÊÓÆµµÚ2ÕÂ×îÐÂÄÚÈÝ£¬Í¨¹ýBilibiliÂþ»ÕæÊµÓªÒµ³¡¾°µÄÍêÕû»¹Ô£¬¹¹½¨ÁËÂþÑÜʽÅÌËã¿ò¼ÜÓ뻥ÁªÍø²úÆ·µÄÊÖÒÕÇÅÁº¡£½Ì³ÌÖÐÑÝʾµÄÊý¾Ý´¦Öóͷ£·¶Ê½¡¢Ë㷨ʵÏÖ¼¼ÇÉÓëÐÔÄܵ÷Óżƻ®£¬Îª¿ª·¢ÕßÌṩÁ˿ɸ´ÓõĹ¤Òµ»¯½â¾ö¼Æ»®Ä£°å¡£Ëæ×ÅÂþ»Æ½Ì¨Êý¾Ý¹æÄ£µÄÒ»Á¬ÔöÌí£¬ÕÆÎÕÕâЩSparkʵսÊÖÒÕ½«³ÉΪ¹¤³ÌʦµÄ½¹µã¾ºÕùÁ¦¡£SparkÊÖÒÕΪºÎ³ÉΪÓÎÏ·Êý¾Ý´¦Öóͷ£µÄÀûÆ÷
ÔÚ×ÏÌÙׯ԰×îÐÂÐû²¼µÄSparkʵ¼ùÊÓÆµÖУ¬¿ª·¢ÍŶÓÊ×´ÎÅû¶ÁËËûÃÇ´¦Öóͷ£ÈÕ¾ù50TBÓÎÏ·ÈÕÖ¾µÄÊÖÒռܹ¹¡£Spark×÷ΪÄÚ´æÅÌËã¿ò¼Ü£¬Ïà½ÏÓڹŰåHadoop¼¯Èº¿ÉʵÏÖ6-8±¶µÄÐÔÄÜÌáÉý£¬Õâ¹ØÓÚÐèҪʵʱͳ¼ÆÍæ¼ÒÁô´æÂʵÄÓÎÏ·ÆóÒµ¾ßÓÐÒªº¦¼ÛÖµ¡£ÌØÊâÔÚʵʱ·´Íâ¹Ò¼à²â³¡¾°ÖУ¬Spark StreamingµÄ΢Åú´¦Öóͷ£»úÖÆÄܹ»¾«×¼²¶»ñÒì³£²Ù×÷ģʽ¡£
ÆóÒµ¼¶°²ÅŵÄÈý´óÊÖÒÕÍ»ÆÆ
×ÏÌÙׯ԰µÄÊÖÒռܹ¹ÊµÏÖÁËÈý´óÁ¢Ò죺ÊÇ»ìÏý´æ´¢Õ½ÂÔ£¬½«ÈÈÊý¾Ý´æ´¢ÔÚAlluxioÄÚ´æ²ã£¬ÀäÊý¾Ýת´æÖÁHDFS£»ÊǶ¯Ì¬×ÊÔ´µ÷Àíϵͳ£¬ÄÜÆ¾Ö¤ÊµÊ±²¢·¢Á¿×Ô¶¯µ÷½âExecutorÉèÖã»ÊǶ¨ÖÆ»¯µÄSpark SQLÀ©Õ¹£¬Ö§³Ö¶ÔÖØ´óǶÌ×µÄJSONÓÎÏ·ÊÂÎñÊý¾Ý¾ÙÐиßЧÆÊÎö¡£ÕâÖÖÓÅ»¯¼Æ»®Èá¶ÍõÕßÔ¶Õ÷¡·ÊÖÓεÄÈÕ»îÓû§ÆÊÎöËÙÂÊÌáÉý92%¡£
ÓÎÏ·³¡¾°ÏÂÊý¾Ý´¦Öóͷ£È«Á÷³Ì²ð½â
´ÓÓû§µã»÷×°Öðüµ½ÓÎÏ·ÄÚÏûºÄÐÐΪ׷×Ù£¬ÍêÕûµÄÊý¾Ý´¦Öóͷ£Á´ÌõÔõÑùʵÏÖ£¿ÊµÕ½ÊÓÆµÏêϸÑÝʾÁ˰üÀ¨Êý¾Ýϴ媣¨Data Wrangling£©¡¢ÌØÕ÷¹¤³Ì£¨Feature Engineering£©ÔÚÄÚµÄ14¸öÒªº¦°ì·¨¡£ÌØÊâÖµµÃ×¢ÖØµÄÊÇ£¬ÍŶӽÓÄÉDelta Lake¹¹½¨ÁËÖ§³ÖACIDÊÂÎñµÄÊý¾Ýºþ£¬È·±£Õ½¶·»Ø·ÅÈÕÖ¾µÄÍêÕûÐÔУÑé׼ȷÂʵִï99.99%¡£
ÐÔÄܵ÷ÓŵÄÎå¸ö»Æ½ð¹æÔò
ÔõÑù×èÖ¹ShuffleÀú³ÌÖеÄÊý¾ÝÇãбÎÊÌ⣿¿ª·¢×ܼàÔÚÊÓÆµÖзÖÏíÁËËûÃÇÔÚ¡¶Èý¹úÕ½ÂÔ°æ¡·ÏîÄ¿Öеĵ÷ÓÅÂÄÀú£ºÍ¨¹ý×Ô½ç˵PartitionerʵÏÖÍæ¼ÒIDµÄƽºâÂþÑÜ£¬ÓÅ»¯ºóµÄJoin²Ù×÷ºÄʱËõ¼õ78%¡£ÆäËûÊÊÓü¼ÇɰüÀ¨¹ã²¥±äÁ¿µÄÖÇÄÜÓ¦Óá¢CatalystÓÅ»¯Æ÷µÄ²ÎÊýÉèÖã¬ÒÔ¼°JVMÀ¬»ø½ÓÄÉ»úÖÆµÄÉî¶Èµ÷ÓÅ¡£
µä·¶ÓªÒµ³¡¾°µÄʵս´úÂëÆÊÎö
ÊÓÆµÕ¹Ê¾ÁËÈý¸öµä·¶Ó¦ÓãºÊµÊ±ÅÅÐаñÅÌËã¡¢¿ç·þÕ½Êý¾Ý¾ÛºÏ¡¢¸¶ÓöȻ§Á÷ʧԤ¾¯Ä£×Ó¡£ÒÔʵʱÅÅÐаñΪÀý£¬ÏîÄ¿×é½ÓÄÉStructured Streaming¹¹½¨µÄ¹ÜµÀ£¬ÄÜÔÚ500msÄÚÍêÓñ³É·þÍæ¼ÒÕ½Á¦ÅÅÐиüС£Ïà¹Ø´úÂëÆ¬¶ÏÖУ¬ÔËÓÃÁËSpark MLlibµÄ¾ÛÀàËã·¨¾ÙÐÐÍæ¼Ò·ÖȺ£¬²¢Á¬ÏµGraphXÆÊÎöÉç½»¹ØÏµÍøÂç¡£
ÆóÒµ¼¶Çå¾²¼Ü¹¹µÄÉè¼ÆÒªµã
ÔÚ´¦Öóͷ£Ãô¸ÐµÄÖ§¸¶Êý¾Ýʱ£¬×ÏÌÙׯ԰µÄ¼Ü¹¹Ê¦Õ¹Ê¾ÁËËûÃǵĶà²ã¼¶·À»¤ÏµÍ³£ºKerberosÈÏÖ¤°ü¹Ü¼¯ÈºÇå¾²£¬»ùÓÚApache RangerµÄÁм¶È¨ÏÞ¿ØÖÆ£¬ÒÔ¼°Ê¹ÓÃSpark AES¼ÓÃÜËã·¨µÄÊý¾Ý´«Êä±£»¤¡£ÔÚ×îеİ汾ÖУ¬»¹¼¯³ÉÁËÇø¿éÁ´ÊÖÒÕÓÃÓÚÒªº¦²Ù×÷ÈÕÖ¾µÄ´æÖ¤£¬ÕâÏîÁ¢Òì½üÆÚÒÑ»ñµ½ÊÖÒÕרÀûÈÏÖ¤¡£
ͨ¹ýϵÁÐʵ¼ùÊÓÆµµÄÉî¶ÈÆÊÎö£¬ÎÒÃÇÇåÎúµØ¿´µ½SparkÊÖÒÕÔÚÓÎÏ·´óÊý¾ÝÁìÓòµÄǿʢDZÁ¦¡£×ÏÌÙׯ԰µÄ°¸Àý֤ʵ£¬ºÏÀíÔËÓÃÄÚ´æÅÌËã¡¢Á÷´¦Öóͷ£µÈÌØÕ÷£¬ÆóÒµÄܹ»¹¹½¨ÏìÓ¦ËÙÂʸü¿ì¡¢À©Õ¹ÐÔ¸üÇ¿µÄÊý¾Ý´¦Öóͷ£Æ½Ì¨¡£ÕâЩÂÄÀú¶ÔÕýÔÚÊý×Ö»¯×ªÐ͵ÄÓÎÏ·¹«Ë¾¾ßÓÐÖ÷Òª²Î¿¼¼ÛÖµ£¬Ò²Îª¿ª·¢ÕßѧϰÆóÒµ¼¶SparkÓ¦ÓÃÌṩÁ˱ê¸Ë¹æ·¶¡£