µÚÒ»Õ£ºÉùÒôÊÕÂÞÊÖÒÕµÄÍ»ÆÆÐÔ½ø»¯
½ñÊÀ¼Òô×°±¸Í¨¹ý192kHz/32bitµÄ³¬¸ßÒôƵ²ÉÑùÂÊ£¨Audio Sampling Rate£©£¬¾«×¼²¶»ñ´½³Ý½Ó´¥Ê±0.5-12kHzµÄÌØÕ÷ƵÂÊ´ø¡£Ë«ÕñĤµçÈÝÂó¿Ë·ç½ÓÄÉרÀûÐÔÐÄÔàÐÎÖ¸ÏòÉè¼Æ£¬ÔÚÏû³ý30cmÍâÇéÐÎÔëÒôµÄͬʱ£¬ÍêÕû±£´æ0.3ÃëÄÚÓÉÇá´¥µ½ÉîÈëµÄÉùѹ½¥±äÀú³Ì¡£¹¤³ÌʦÍŶӿª·¢µÄ¶¯Ì¬½µÔëËã·¨£¨Dynamic Noise Reduction£©¿ÉÖÇÄÜʶ±ð²¢ÊèɢĿµÄÉùÔ´£¬Ê¹µÃÎÞÅä¾°ÒôÀÖÂ¼ÖÆ³¡¾°ÖеÄÈËÉù´¿¾»¶È´ï98.7%¡£
µÚ¶þÕ£º¿Õ¼äÉù³¡»¹ÔµÄÒªº¦Á¢Òì
×îа汾Å䱸µÄ3DÉùÏñ¶¨Î»ÏµÍ³£¬Í¨¹ýHRTFÍ·²¿Ïà¹Ø´«Ê亯Êý£¨Head-Related Transfer Function£©×¼È·Ä£ÄâÌý¾õ¿Õ¼ä¡£ÔÚÇ×ÃÜÆø·ÕÌåÑé²âÊÔÖУ¬85%µÄÊÜÊÔÕß¿É׼ȷÅжÏÉùÔ´¾àÀëÎó²îСÓÚ2cm¡£ÅäºÏ¿ÕÆø´«µ¼Ä£ÄâÊÖÒÕ£¬Á¢ÒìÐÔµØÔÙÏÖÎÂÈȺôÎüÂÓ¹ý¶úÀªÊ±ÌØÓеÄ20Hz´ÎÉù²¨Õñ¶¯£¬ÕâÖÖÌÕ×íʽÌåÑéÈôóÄÔÐÓÈʺ˻îÔ¾¶ÈÌáÉý37%£¬ÇéÐ÷¹²Ê¶Ð§ÂÊÔ¶³¬¹Å°å¼Òô·½·¨¡£
µÚÈýÕ£º×°±¸ÉèÖÃÓë²ÎÊýÓÅ»¯Õ½ÂÔ
ҪʵÏÖÉàÎÇÔÉù³¬ÇåÎúÂ¼ÖÆ£¬½¨Òé½ÓÄÉ×éºÏʽʰÒô¼Æ»®£ºÖ÷Âó¿Ë·çѡרÐÄÐÍÖ¸ÏòרҵµçÈÝÂ󣬸¨ÒÔÌùÉíʽ¹Çµ¼´«¸ÐÆ÷ÊÕÂÞò¢¹ÇÕð¾ªÐźš£²ÎÊýÉèÖ÷½Ã棬½«ÔöÒæ¿ØÖÆÔÚ-18dBÖÁ-12dBÇø¼ä£¬ÅäºÏ80Hz¸ßͨÂ˲¨¿ÉÓÐÓÃÏû³ýÊÖ³ÖÔëÒô¡£²âÊÔÊý¾ÝÏÔʾ£¬µ±ÐÅÔë±È£¨SNR£©ÌáÉýÖÁ75dBʱ£¬ÌýÖÚ¶ÔÇ×Ãܳ¡¾°µÄÕæÊµ¸ÐÆÀ¼ÛÌá¸ß2.3±¶¡£
µÚËÄÕ£ººóÆÚ´¦Öóͷ£µÄÖÇÄܽµÔë¼Æ»®
»ùÓÚÉî¶ÈѧϰµÄÉùÒôÊèÉ¢ÊÖÒÕ£¨Deep Learning Audio Separation£©ÔÚ×îа汾ÖÐÌåÏÖÓÈΪͻ³ö¡£Ë㷨ͨ¹ý3000СʱµÄÕæÕæÏàÐÎѵÁ·Ñù±¾£¬¿Éʶ±ð²¢Ïû³ý96Àà³£¼ûÇéÐÎÔëÒô£¬Í¬Ê±¼á³ÖÄ¿µÄÉùÔ´µÄÏàλһÖÂÐÔ¡£ÔÚ´¦Öóͷ£Ç×ÎÇÔÉùʱ£¬ÖÇÄÜÆ½ºâÆ÷»á¶¯Ì¬Ç¿»¯500-2000HzƵ¶Î£¬ÕâÊÇ´½²¿½Ó´¥Ê±Éù²¨·´ÉäµÄÖ÷񻂿Óò£¬Ê¹Ã¿´¦Ï¸½Ú¶¼Ï˺Á±ÏÏÖ¡£
µÚÎåÕ£ºÏÖʵӦÓ󡾰ЧÄÜÑéÖ¤
ÔÚÓ°ÊÓ¾çͬÆÚÉùÂ¼ÖÆ²âÊÔÖУ¬ÐÂÐÍ×°±¸Àֳɽ«ÇéÐε×Ôë´Ó-60dB½µµÍÖÁ-82dB£¬µ¼ÑÝ×é¶ÔÇ×ÃÜÏ··ÝµÄÉùÒôÕæÊµ¶ÈÖª×ã¶È´ï92%¡£ÇéÐ÷ÐÄÀí×Éѯ»ú¹¹·´ÏìÏÔʾ£¬Ê¹Óó¬ÇåÎúÔÉùËØ²Äºó£¬À´·ÃÕßµÄÇéÐ÷´úÈëЧÂÊÌáÉý41%¡£¸üÖµµÃ¹Ø×¢µÄÊÇ£¬ÔÚASMRÄÚÈÝÁìÓò£¬ÎÞÅä¾°ÒôÀÖ°æ±¾µÄÓû§Æ½¾ùÍ£Áôʱ³¤ÑÓÉìÖÁ7·Ö23Ã룬Íê²¥ÂÊÌá¸ß28%¡£
´ÓÊÖÒÕ²ÎÊýµ½ÇéÐ÷¹²Ê¶£¬ÉàÎÇÔÉù³¬ÇåÎúÎÞÅä¾°ÒôÀÖµÄÁ¢Òì±ê¼Ç×ÅÉùÒô¹¤³ÌÓëÈËÎÄÐèÇóµÄÉî¶ÈÁ¬Ïµ¡£×îа汾ͨ¹ýƵÆ×ÖØ×éËã·¨£¨Spectrum Reconstruction Algorithm£©ºÍÐÄÀíÉùѧÑо¿£¬½«Ç×ÃÜÆø·ÕÌåÑéµÄÕæÊµ¶ÈÍÆÏòÐÂά¶È¡£ÕâÖÖ¿çÔ½ÊÖÒÕ½çÏßµÄ̽Ë÷£¬²»µ«Îª×¨ÒµÁìÓòÌṩ½â¾ö¼Æ»®£¬¸üÖØÐ½ç˵ÁËÈËÀà¶ÔÇ×ÃÜÉùÒôµÄ¸ÐÖª·½·¨¡£ »î¶¯£º¡¾ÉàÎÇÔÉù³¬ÇåÎúÎÞÅä¾°ÒôÀÖ¸ÐÊÜÕæÊµÇ×ÃÜÆø·ÕÌåÑé×îÐÂÔÃÄ¿µÄÓÎÏ·¡¿ ÔÚ×·Çó¼«ÖÂÕæÊµµÄÊÓÌýÌåÑéʱ´ú£¬ÉàÎÇÔÉù³¬ÇåÎúÎÞÅä¾°ÒôÀÖÒѳÉΪÇéÐ÷ÄÚÈÝ´´×÷µÄбê¸Ë¡£×îа汾ͨ¹ýÉùÎÆÊèÉ¢Ëã·¨£¨Voiceprint Separation Algorithm£©Óë¿Õ¼ä»ìÏ콨ģÊÖÒÕ£¬½«ÇéÐÎ×ÌÈÅÒôÏû³ý¾«¶ÈÌáÉýÖÁ0.03dBˮƽ¡£ÕâÖÖÌÕ×íʽ¼Òô¼Æ»®²»µ«ÍêÕû±£´æ´½³ÝÈÚ»áµÄϸÄåÉùÎÆ£¬¸ü´òÔì³ö»ÐÈô¶úÅϵÄÕæÊµÇ×ÃÜÆø·ÕÌåÑ飬ΪӰÊÓÖÆ×÷¡¢ASMRÄÚÈÝ´´×÷¼°ÐÄÀíѧÑо¿Ìá¹©Í»ÆÆÐÔÊÖÒÕÖ§³Ö¡£µÚÒ»Õ£ºÉùÒôÊÕÂÞÊÖÒÕµÄÍ»ÆÆÐÔ½ø»¯
½ñÊÀ¼Òô×°±¸Í¨¹ý192kHz/32bitµÄ³¬¸ßÒôƵ²ÉÑùÂÊ£¨Audio Sampling Rate£©£¬¾«×¼²¶»ñ´½³Ý½Ó´¥Ê±0.5-12kHzµÄÌØÕ÷ƵÂÊ´ø¡£Ë«ÕñĤµçÈÝÂó¿Ë·ç½ÓÄÉרÀûÐÔÐÄÔàÐÎÖ¸ÏòÉè¼Æ£¬ÔÚÏû³ý30cmÍâÇéÐÎÔëÒôµÄͬʱ£¬ÍêÕû±£´æ0.3ÃëÄÚÓÉÇá´¥µ½ÉîÈëµÄÉùѹ½¥±äÀú³Ì¡£¹¤³ÌʦÍŶӿª·¢µÄ¶¯Ì¬½µÔëËã·¨£¨Dynamic Noise Reduction£©¿ÉÖÇÄÜʶ±ð²¢ÊèɢĿµÄÉùÔ´£¬Ê¹µÃÎÞÅä¾°ÒôÀÖÂ¼ÖÆ³¡¾°ÖеÄÈËÉù´¿¾»¶È´ï98.7%¡£
µÚ¶þÕ£º¿Õ¼äÉù³¡»¹ÔµÄÒªº¦Á¢Òì
×îа汾Å䱸µÄ3DÉùÏñ¶¨Î»ÏµÍ³£¬Í¨¹ýHRTFÍ·²¿Ïà¹Ø´«Ê亯Êý£¨Head-Related Transfer Function£©×¼È·Ä£ÄâÌý¾õ¿Õ¼ä¡£ÔÚÇ×ÃÜÆø·ÕÌåÑé²âÊÔÖУ¬85%µÄÊÜÊÔÕß¿É׼ȷÅжÏÉùÔ´¾àÀëÎó²îСÓÚ2cm¡£ÅäºÏ¿ÕÆø´«µ¼Ä£ÄâÊÖÒÕ£¬Á¢ÒìÐÔµØÔÙÏÖÎÂÈȺôÎüÂÓ¹ý¶úÀªÊ±ÌØÓеÄ20Hz´ÎÉù²¨Õñ¶¯£¬ÕâÖÖÌÕ×íʽÌåÑéÈôóÄÔÐÓÈʺ˻îÔ¾¶ÈÌáÉý37%£¬ÇéÐ÷¹²Ê¶Ð§ÂÊÔ¶³¬¹Å°å¼Òô·½·¨¡£
µÚÈýÕ£º×°±¸ÉèÖÃÓë²ÎÊýÓÅ»¯Õ½ÂÔ
ҪʵÏÖÉàÎÇÔÉù³¬ÇåÎúÂ¼ÖÆ£¬½¨Òé½ÓÄÉ×éºÏʽʰÒô¼Æ»®£ºÖ÷Âó¿Ë·çѡרÐÄÐÍÖ¸ÏòרҵµçÈÝÂ󣬸¨ÒÔÌùÉíʽ¹Çµ¼´«¸ÐÆ÷ÊÕÂÞò¢¹ÇÕð¾ªÐźš£²ÎÊýÉèÖ÷½Ã棬½«ÔöÒæ¿ØÖÆÔÚ-18dBÖÁ-12dBÇø¼ä£¬ÅäºÏ80Hz¸ßͨÂ˲¨¿ÉÓÐÓÃÏû³ýÊÖ³ÖÔëÒô¡£²âÊÔÊý¾ÝÏÔʾ£¬µ±ÐÅÔë±È£¨SNR£©ÌáÉýÖÁ75dBʱ£¬ÌýÖÚ¶ÔÇ×Ãܳ¡¾°µÄÕæÊµ¸ÐÆÀ¼ÛÌá¸ß2.3±¶¡£
µÚËÄÕ£ººóÆÚ´¦Öóͷ£µÄÖÇÄܽµÔë¼Æ»®
»ùÓÚÉî¶ÈѧϰµÄÉùÒôÊèÉ¢ÊÖÒÕ£¨Deep Learning Audio Separation£©ÔÚ×îа汾ÖÐÌåÏÖÓÈΪͻ³ö¡£Ë㷨ͨ¹ý3000СʱµÄÕæÕæÏàÐÎѵÁ·Ñù±¾£¬¿Éʶ±ð²¢Ïû³ý96Àà³£¼ûÇéÐÎÔëÒô£¬Í¬Ê±¼á³ÖÄ¿µÄÉùÔ´µÄÏàλһÖÂÐÔ¡£ÔÚ´¦Öóͷ£Ç×ÎÇÔÉùʱ£¬ÖÇÄÜÆ½ºâÆ÷»á¶¯Ì¬Ç¿»¯500-2000HzƵ¶Î£¬ÕâÊÇ´½²¿½Ó´¥Ê±Éù²¨·´ÉäµÄÖ÷񻂿Óò£¬Ê¹Ã¿´¦Ï¸½Ú¶¼Ï˺Á±ÏÏÖ¡£
µÚÎåÕ£ºÏÖʵӦÓ󡾰ЧÄÜÑéÖ¤
ÔÚÓ°ÊÓ¾çͬÆÚÉùÂ¼ÖÆ²âÊÔÖУ¬ÐÂÐÍ×°±¸Àֳɽ«ÇéÐε×Ôë´Ó-60dB½µµÍÖÁ-82dB£¬µ¼ÑÝ×é¶ÔÇ×ÃÜÏ··ÝµÄÉùÒôÕæÊµ¶ÈÖª×ã¶È´ï92%¡£ÇéÐ÷ÐÄÀí×Éѯ»ú¹¹·´ÏìÏÔʾ£¬Ê¹Óó¬ÇåÎúÔÉùËØ²Äºó£¬À´·ÃÕßµÄÇéÐ÷´úÈëЧÂÊÌáÉý41%¡£¸üÖµµÃ¹Ø×¢µÄÊÇ£¬ÔÚASMRÄÚÈÝÁìÓò£¬ÎÞÅä¾°ÒôÀÖ°æ±¾µÄÓû§Æ½¾ùÍ£Áôʱ³¤ÑÓÉìÖÁ7·Ö23Ã룬Íê²¥ÂÊÌá¸ß28%¡£
´ÓÊÖÒÕ²ÎÊýµ½ÇéÐ÷¹²Ê¶£¬ÉàÎÇÔÉù³¬ÇåÎúÎÞÅä¾°ÒôÀÖµÄÁ¢Òì±ê¼Ç×ÅÉùÒô¹¤³ÌÓëÈËÎÄÐèÇóµÄÉî¶ÈÁ¬Ïµ¡£×îа汾ͨ¹ýƵÆ×ÖØ×éËã·¨£¨Spectrum Reconstruction Algorithm£©ºÍÐÄÀíÉùѧÑо¿£¬½«Ç×ÃÜÆø·ÕÌåÑéµÄÕæÊµ¶ÈÍÆÏòÐÂά¶È¡£ÕâÖÖ¿çÔ½ÊÖÒÕ½çÏßµÄ̽Ë÷£¬²»µ«Îª×¨ÒµÁìÓòÌṩ½â¾ö¼Æ»®£¬¸üÖØÐ½ç˵ÁËÈËÀà¶ÔÇ×ÃÜÉùÒôµÄ¸ÐÖª·½·¨¡£