Search
Duplicate
๐Ÿฆœ

BirdNET: A deep learning solution for avian diversity monitoring

Created
2022/08/09
Editor
Tags
Sound Recognition
Recognizing Birds from Sound - The 2018 BirdCLEF Baseline System

์ด ๋…ผ๋ฌธ์„ ์„ ํƒํ•œ ์ด์œ 

๊ณต๋ถ€ํ•œ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์— ๋Œ€ํ•ด ์ด๋ฒˆ์—๋Š” ์–ด๋–ป๊ฒŒ ๋จธ์‹ ๋Ÿฌ๋‹์„ ํ˜„์‹ค์„ธ๊ณ„์— ์ ์šฉํ•˜๊ณ  ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉํ•˜๋Š”์ง€๋ฅผ ์•Œ์•„๋ณด๊ณ  ์‹ถ์–ด ๋…ผ๋ฌธ์„ ๋ฆฌ์„œ์น˜๋ฅผ ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๊ทธ ์ค‘์—์„œ, ์ž์—ฐ์—์„œ ๋“ค๋ ค์˜ค๋Š” ์ƒˆ์˜ ์šธ์Œ์†Œ๋ฆฌ๋“ค์„ ๋ถ„์„ํ•ด ์ข…๊ณผ ๊ฐœ์ฒด์ˆ˜๋ฅผ ํŒŒ์•…ํ•˜๊ณ , ํ˜„์žฌ ์ƒํƒœ๊ณ„์˜ ๊ฑด๊ฐ• ์ƒํƒœ์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ๋”ฅ๋Ÿฌ๋‹์„ ํ†ตํ•ด ๋ถ„์„ํ•˜๊ณ ์ž ํ•œ BirdNET์ด ์˜๋ฏธ๋„ ์žˆ๊ณ  ํฅ๋ฏธ๋กœ์›Œ์„œ ๋ณธ ๋…ผ๋ฌธ์„ ์„ ํƒํ•˜๊ณ  ํฌ์ŠคํŠธ๋ฅผ ์ž‘์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค.

1. Introduction

์ƒˆ๋“ค์€ ๋Œ€๋ถ€๋ถ„์˜ ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ์—์„œ ์‚ด์•„๊ฐ€๊ณ , ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ ์š”์ธ๋“ค๊ณผ ๊ด€๊ณ„๋ฅผ ๋งบ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜, ์ƒˆ์— ๋Œ€ํ•ด์„œ ๋‹ค๋ฅธ ์ข…๋“ค๋ณด๋‹ค ๋น„๊ต์  ์ž˜ ์—ฐ๊ตฌ๋˜์–ด์žˆ๊ธฐ์— ์ƒํƒœ๊ณ„์˜ ๊ฑด๊ฐ• ์ƒํƒœ๋ฅผ ํŒŒ์•…ํ•˜๋Š” ๊ธฐ์ดˆ๋กœ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค.
๊ณผ๊ฑฐ์—๋Š” ์ƒˆ ์ข…์˜ ๋ถ„ํฌ๋ฅผ ์กฐ์‚ฌํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ๋žŒ์ด ์ง์ ‘ ํ•ด๋‹น ์žฅ์†Œ์—์„œ ์†Œ๋ฆฌ๋ฅผ ๋“ฃ๊ณ  ์กฐ์‚ฌํ•˜์˜€์ง€๋งŒ, ์ธ๋ ฅ์˜ ํ•œ๊ณ„๋กœ ์ž๋™์œผ๋กœ ์†Œ๋ฆฌ๋ฅผ ์ €์žฅํ•˜๋Š” ์žฅ์น˜๋ฅผ ํ™œ์šฉํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜์—ฌ ๋ถ„์„์„ ์ง„ํ–‰ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜, ์ด๋ฅผ ๋ถ„์„ํ•˜๋Š” ์ผ ์—ญ์‹œ ์—ฌ์ „ํžˆ ์–ด๋ ค์šด ์ผ์ด๊ธฐ์—, ๋” ๋‚˜์€ ๋ถ„์„ ๊ฒฐ๊ณผ๋ฅผ ์œ„ํ•ด ๋จธ์‹ ๋Ÿฌ๋‹์˜ ๋„์ž…์„ ์‹œ๋„ํ•˜๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” CNN ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ธฐ์ดˆ๋กœ ํ•˜๋Š” ๋ถ„๋ฅ˜ ๋ชจ๋ธ์„ ํ†ตํ•ด ์ˆ˜์ง‘๋œ ๋…น์Œ์„ ๋ถ„์„ํ•˜๋„๋ก ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

2. ์—ฐ๊ตฌ ๋ฐฉ๋ฒ•

ํ™œ์šฉํ•œ ๋ฐ์ดํ„ฐ

ํฌ๊ฒŒ 3๋ถ€๋ฅ˜์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šต๊ณผ ํ…Œ์ŠคํŠธ๋ฅผ ์ง„ํ–‰ํ•˜์˜€์Šต๋‹ˆ๋‹ค.
โ€ข
์ƒˆ 984์ข…์˜ ์šธ์Œ์†Œ๋ฆฌ๋งŒ์„ ์ง‘์ค‘ํ•˜์—ฌ ๋…น์Œํ•œ ์Œ์„ฑ ํŒŒ์ผ (Focal recording)
โ€ข
์ž์—ฐ ํ™˜๊ฒฝ์†์—์„œ ์†Œ๋ฆฌ๋ฅผ ๋…น์Œํ•œ ์Œ์„ฑ ํŒŒ์ผ (Soundscape recording)
โ€ข
์ƒˆ์˜ ์šธ์Œ์†Œ๋ฆฌ๋ฅผ ์ œ์™ธํ•œ ์ž์—ฐ, ์ธ๊ณต ํ™˜๊ฒฝ์†Œ๋ฆฌ ์Œ์„ฑ ํŒŒ์ผ (Google AudioSet)
๋‹จ์ผ ์ข…์— ์ง‘์ค‘๋œ ๋…น์Œ๋ณธ์œผ๋กœ ํ•™์Šตํ•œ ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ, ํ™˜๊ฒฝ ๋…ธ์ด์ฆˆ๊ฐ€ ์„ž์˜€์„ ๋•Œ (soundscape์— ๋Œ€ํ•ด) ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ด์ง€ ์•Š์•˜๊ณ , ํ™˜๊ฒฝ ๋…ธ์ด์ฆˆ์™€ ํ•จ๊ป˜ ํ•™์Šต์„ ์ง„ํ–‰ํ•˜์˜€์„ ๋•Œ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

๋ฐ์ดํ„ฐ์˜ ์ „์ฒ˜๋ฆฌ ๋ฐ ๊ฐ•ํ™”

Neural Network์—์„œ input data๋กœ ๋ฐ์ดํ„ฐ์˜ ๊ฐ€๊ณต์ด ์šฉ์ดํ•œ spectrogram์„ ์ด์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค.
๋ชจ๋ธ์— ์Œ์„ฑ๋ฐ์ดํ„ฐ๋ฅผ ์ž…๋ ฅ์‹œ์ผœ ์‚ฌ์šฉํ•˜๊ธฐ ์œ„ํ•ด, ๋ฐ์ดํ„ฐ์˜ ์ „์ฒ˜๋ฆฌ๋ฅผ ์ง„ํ–‰ํ•ด์ค๋‹ˆ๋‹ค.
โ€ข
High temporal resolution์„ ์œ„ํ•ด Fast Fourier Transform(๊ตฌ๊ฐ„์œผ๋กœ ๋‚˜๋ˆ  ๋ณ€ํ™˜)์„ ์ ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค.
โ€ข
๋ฐ์ดํ„ฐ์˜ ํฌ๊ธฐ๋ฅผ ์ค„์ด๊ธฐ ์œ„ํ•ด ์œ ํšจํ•œ ์ฃผํŒŒ์ˆ˜(150Hz~15kHz) ๋งŒ์„ ์ž˜๋ผ๋‚ด์–ด ์ด์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค.
โ€ข
์‚ฌ๋žŒ์˜ ์Œ์„ฑ์„ spectrogram์œผ๋กœ ๋ณ€ํ™˜ํ•˜๊ธฐ ์œ„ํ•ด Mel-Spectrogram์˜ ๋ฐฉ๋ฒ•์„ ์ฃผ๋กœ ์‚ฌ์šฉํ•˜๋Š”๋ฐ, ์ƒˆ์˜ ์šธ์Œ์†Œ๋ฆฌ์™€ ์‚ฌ๋žŒ์˜ ์Œ์„ฑ์ด ๋‹ค๋ฅธ ํŠน์ง•์„ ๊ฐ€์ง€๋ฏ€๋กœ, ์ด์— ๋Œ€ํ•ด ์ „์ฒ˜๋ฆฌ๋ฅผ ํ†ตํ•ด ์ ์ ˆํ•œ ์ˆ˜์น˜๋กœ ์ ์‘์‹œ์ผœ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.
Mel Spectrogram ์‚ฌ๋žŒ์ด ์†Œ๋ฆฌ๋ฅผ ์ธ์‹ํ•  ๋•Œ linearํ•˜๊ฒŒ ์ธ์‹ํ•˜์ง€ ์•Š๋Š”๋‹ค. (๊ณ ์ฃผํŒŒ์˜ ์†Œ๋ฆฌโ€” 10,000Hz ์™€ 10,500Hzโ€”๋ฅผ ์ž˜ ๊ตฌ๋ถ„ํ•˜์ง€ ๋ชปํ•˜์ง€๋งŒ, ์ €์ฃผํŒŒ์˜ ์†Œ๋ฆฌโ€”500Hz์™€ 1,000Hzโ€”๋Š” ์ž˜ ๊ตฌ๋ถ„ํ•จ) ์˜คํžˆ๋ ค log scale๊ณผ ๋น„์Šทํ•˜๋‹ค. ๋”ฐ๋ผ์„œ, ์†Œ๋ฆฌ ์‹ ํ˜ธ๋ฅผ ์ €์ฃผํŒŒ์— ๋Œ€ํ•ด์„œ ๋„“๊ฒŒ, ๊ณ ์ฃผํŒŒ์— ๋Œ€ํ•ด์„œ ์ข๊ฒŒ ๋ถ„ํฌํ•˜๋„๋ก mel scale๋กœ ๋ณ€ํ™˜ํ•ด์ฃผ๋ฉด ๋”์šฑ ์œ ์šฉํ•˜๊ฒŒ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹จ์ผ ์ข… ๋…น์Œ ๋ฐ์ดํ„ฐ์™€ soundscape ๊ฐ„์˜ ์ฐจ์ด๋ฅผ ๋ณด๊ฐ•ํ•˜๊ธฐ ์œ„ํ•ด, spectrogram์— ๋Œ€ํ•ด data augmentation์„ ์ง„ํ–‰ํ•ด์ค๋‹ˆ๋‹ค.
โ€ข
Vertical roll / Horizontal roll ์†Œ๋ฆฌ์˜ pitch(vertical), time(horizontal) ๋ฌด์ž‘์œ„ shifting ์„ ํ†ตํ•ด ๋‹ค์–‘ํ•œ ์šธ์Œ์†Œ๋ฆฌ ๋ฐ์ดํ„ฐ๋ฅผ ํ™•๋ณด
โ€ข
Vertical stretch / Horizontal stretch ์ƒˆ๋“ค์ด ํŠน์ •ํ•œ ์ƒํ™ฉ์—์„œ ์šธ์Œ์†Œ๋ฆฌ์˜ ๋†’๋‚ฎ์ด์™€ ํ…œํฌ๋ฅผ ๋ฐ”๊พธ๋Š” ์Šต์„ฑ์ด ์žˆ๊ธฐ ๋•Œ๋ฌธ์—, stretch๋ฅผ ํ†ตํ•ด ์ด๋Ÿฌํ•œ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ๋Œ€์‘
โ€ข
Elastic distortion / Warp ๋‹จ์ˆœํžˆ shift, stretch ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋ณต์žกํ•œ ๋ณ€ํ˜•์„ ๊ฐ€ํ•ด (์‹ค์ œ๋กœ ๋‚˜์˜ค๊ธฐ ํž˜๋“  ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ๋„) ์˜ฌ๋ฐ”๋ฅธ ๊ฒฐ๊ณผ๋ฅผ ๋‚ผ ์ˆ˜ ์žˆ๋„๋ก ํ•™์Šต
โ€ข
Time masking / Frequency masking DNN์ด ์˜๋ฏธ์ ์œผ๋กœ ๋”์šฑ ์ค‘์š”ํ•œ ํŠน์ง•์— ๋Œ€ํ•ด ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ์ •์ œ
โ€ข
Noise sample addition ์‹ค์ œ ์ž์—ฐํ™˜๊ฒฝ์—์„œ๋Š” noise๊ฐ€ ํ•จ๊ป˜ ๋…น์Œ๋˜๊ธฐ ๋•Œ๋ฌธ์—, ์ด๋Ÿฐ ํ™˜๊ฒฝ์†์—์„œ ์ƒˆ์˜ ์Œ์„ฑ์„ detectionํ•˜๋Š” ๊ฒƒ์„ ํ›ˆ๋ จ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ์ผ๋ถ€๋Ÿฌ noise๋ฅผ ์ถ”๊ฐ€

๋ชจ๋ธ์˜ ๊ตฌ์กฐ

Extremely Deep Architecture ์™€ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ผ ์ˆ˜ ์žˆ๋Š” Wide ResNet architecture์„ BirdNET ๊ตฌํ˜„์„ ์œ„ํ•ด ์‚ฌ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค. ResNet์˜ Width๋Š” 4, Depth๋Š” 3์œผ๋กœ ์„ธํŒ…ํ•˜์—ฌ 157๊ฐœ์˜ layer๋กœ ๊ตฌ์„ฑ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. layer๋Š” ์•„๋ž˜์˜ 3๊ฐ€์ง€ ์ฃผ์š” component๋ฅผ ๊ฐ–์Šต๋‹ˆ๋‹ค.
1.
์ „์ฒ˜๋ฆฌ Block Original input spectrogram์„ residual stack์— ๋“ค์–ด๊ฐ€๊ธฐ ์ „์— ๋ณ€ํ™˜์ฒ˜๋ฆฌ๋ฅผ ํ•ด์ค€๋‹ค.
2.
Residual Stack Downsampling๊ณผ regular residual block์ด ํŠน์ง•์ ์„ ๋ฝ‘์•„๋‚ธ๋‹ค.
3.
Classification block 987์ข…์˜ ์ƒˆ์— ๋Œ€ํ•œ ํ™•๋ฅ ์„ ๊ตฌํ•œ๋‹ค.

๋ชจ๋ธ ํ•™์Šต

๊ฐ class ๋‹น 3500๊ฐœ์˜ sample์—์„œ ์ถ”์ถœํ•œ 1.5M ๊ฐœ์˜ spectrogram์œผ๋กœ training set์„ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค. ๋˜, ๋”์šฑ ์ข‹์€ ํ•™์Šต๊ฒฐ๊ณผ๋ฅผ ์œ„ํ•ด 3๊ฐœ์˜ spectrogram์„ 1๊ฐœ์˜ sample์— ๋‹ด์•„ mixup training set์„ ๊ตฌ์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค.
Optimizer๋กœ ADAM์„ learning rate 0.001๋กœ ์‚ฌ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค.

3. Result

System์˜ ๋น„๊ต๋ฅผ ์œ„ํ•ด sample-wise(mAP)์™€ class-wise average precision (cmAP)๋ฅผ ์ด์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค. ํ˜„์‹ค์„ธ๊ณ„์˜ common species์— ๋Œ€ํ•œ case๋ฅผ ๋ฐ˜์˜ํ•˜๊ธฐ ์œ„ํ•ด, training sample์€ class์— ๋ถˆ๊ท ํ˜•ํ•˜๊ฒŒ ํผ์ ธ์žˆ๋„๋ก ๊ตฌ์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค.(ํ”ํ•œ ์ข…์„ ๋” ๋งŽ์ด ์‚ฌ์šฉํ•˜์˜€์Œ) ์ด๋ฅผ ํ†ตํ•ด class-wise evaluation์ด balanced ๋˜๊ฒŒ ๋งŒ๋“ค์–ด์ค๋‹ˆ๋‹ค. several complementary metrics๋ฅผ ์ด์šฉํ•ด ์ ‘๊ทผ๋ฐฉ๋ฒ•์˜ ํ‰๊ฐ€ํ•˜๊ณ ์ž ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

Focal recording evaluation

test data๋Š” 984์ข…์˜ ์ƒˆ์— ๋Œ€ํ•œ 22,960๊ฐœ์˜ focal recording๋กœ ๊ตฌ์„ฑ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. mAP 0.791, cmAP 0.694๋ฅผ ๊ธฐ๋กํ•˜์˜€์Šต๋‹ˆ๋‹ค. primary prediction๋งŒ์„ ๊ณ ๋ คํ•˜์˜€์„๋•Œ, top-1 accuracy 0.777, AUC 0.974๋ฅผ ๊ธฐ๋กํ•˜์˜€์Šต๋‹ˆ๋‹ค. mean confidence value(ํ‰๊ท  ์‹ ๋ขฐ๊ฐ’ - ๊ตฌ๊ฐ„)์ด 0.627์„ ๊ธฐ๋กํ•˜์˜€์Šต๋‹ˆ๋‹ค.
training data์™€ ์œ ์‚ฌํ•œ focal recording์— ๋Œ€ํ•ด์„œ๋Š” ์ค€์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜, soundscape์—์„œ๋Š” domain shift๋กœ ์ธํ•œ ์–ด๋ ค์›€์ด ์žˆ์Šต๋‹ˆ๋‹ค.

Soundscape recording evaluation

๊ตฌ์„ฑํ•œ ๋ชจ๋ธ์€ soundscape์— ๋Œ€ํ•ด์„œ๋Š” ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ๋‚ฎ์•„์ง€๋Š” ๋ชจ์Šต์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. F0.5 score๋กœ 0.414๋ฅผ ๊ธฐ๋กํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ƒˆ๊ฐ€ ๊ฐ€์žฅ ๋งŽ์ด ์šฐ๋Š” ์‹œ๊ฐ„๋Œ€์ธ ํ•ด๊ฐ€ ๋œจ๊ธฐ ์ „ํ›„ 1์‹œ๊ฐ„ ๋™์•ˆ์˜ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ๋Š” ์ƒˆ์˜ ์šธ์Œ์†Œ๋ฆฌ๊ฐ€ ๋งŽ์•„์กŒ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  F0.5 score๋กœ 0.395๋ฅผ ๊ธฐ๋กํ•˜์˜€์Šต๋‹ˆ๋‹ค.
์ „๋ฐ˜์ ์ธ AUC๋Š” 0.596๋กœ, ํ›„์ฒ˜๋ฆฌ confidence value(์‹ ๋ขฐ ๊ฐ’)์ด false positive๋ฅผ ์‰ฝ๊ฒŒ ์ค„์ผ ์ˆ˜ ์—†์Œ์„ ๋งํ•ฉ๋‹ˆ๋‹ค. post-filtering๊ณผ ๊ฐ™์€ eBird bar chard data๊ฐ€ ๋” ๋‚˜์€ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
soundscape์— ๋Œ€ํ•œ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์€ organizer์— ์˜ํ•ด ๋™์ผ ์žฅ์†Œ์—์„œ ๋…น์Œ๋œ 3-day subset ์„ ํ†ตํ•ด ํ•™์Šตํ•˜์˜€์„ ๋•Œ ๋ˆˆ์— ๋„๊ฒŒ ์ข‹์•„์กŒ์Šต๋‹ˆ๋‹ค. single-model ์„ฑ๋Šฅ์€ F0.5๊ฐ€ 0.416์œผ๋กœ ์ƒ์Šนํ•˜์˜€์Šต๋‹ˆ๋‹ค.

Evaluation on continuous stream data

๋ณธ ๋ชจ๋ธ์˜ ๋ณธ๋ž˜ ๋ชฉ์ ๊ณผ ๋งž๊ฒŒ, ์ž์—ฐ์†์—์„œ์˜ ์ƒˆ ์†Œ๋ฆฌ๋ฅผ ๋“ฃ๊ณ  ์ƒˆ์˜ ์ข… ๋ถ„ํฌ์— ๋”ฐ๋ฅธ ๋‚ ์”จ ๋“ฑ์˜ ํ™˜๊ฒฝ ๋ณ€ํ™”๋ฅผ ์ฐพ์•„๋‚ด๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. Soundscape test dataset์€ 5๊ฐœ์›” ์ค‘ 12์ผ์˜ ์Œ์„ฑํŒŒ์ผ์— ๋Œ€ํ•œ ๋ถ„์„์ด๊ธฐ์— ๋ณธ ๋ชฉ์ ๊ณผ ๋ถ€ํ•ฉํ•˜์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์—, ์ฝ”๋„ฌ ๋Œ€ํ•™๊ต ๊ทผ์ฒ˜์—์„œ 4๋…„ ์—ฐ์†์œผ๋กœ ๋…น์Œ๋œ ์Œ์„ฑ ํŒŒ์ผ์˜ ๋ถ„์„์„ ์ง„ํ–‰ํ•˜์˜€์Šต๋‹ˆ๋‹ค. 4๋…„์˜ ๊ธฐ๊ฐ„ ์ค‘ 96.1%์— ํ•ด๋‹นํ•˜๋Š” 33,670h์˜ ๋…น์ŒํŒŒ์ผ์€ ๋ถ„์„ํ•˜์˜€๊ณ , ์ˆ˜์น˜๋ฅผ ์กฐ์ •ํ•˜์—ฌ ๊ฐ„๋žตํ•˜๊ฒŒ ๋ถ„์„์„ ์ง„ํ–‰ํ•˜์˜€์Šต๋‹ˆ๋‹ค.
4๊ฐœ์˜ ์žฅ์†Œ์—์„œ์˜ ๊ด€์ฐฐ์„ ํ•ฉ์ณค์„ ๋•Œ, 121์ข…์˜ ์ฒ ์ƒˆ์™€ ํ…ƒ์ƒˆ๋ฅผ ๊ด€์ฐฐํ•  ์ˆ˜ ์žˆ์—ˆ๊ณ , ๊ด€์ธก ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ ๊ณ„์ ˆ์˜ ํŒจํ„ด์„ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์•„๋ž˜ ๊ทธ๋ž˜ํ”„๋Š” ์„œ์‹์ง€๋ฅผ ์ด๋™ํ•˜๋Š” ์ƒˆ(migratory species)์™€ ํŠน์ • ์ง€์—ญ์— ๋จธ๋ฌด๋ฅด๋Š” ์ƒˆ ์ข…(non-migratory species)์˜ ๊ฐœ์ฒด์ˆ˜๋ฅผ ์ธก์ •ํ•œ ๊ทธ๋ž˜ํ”„์ž…๋‹ˆ๋‹ค. ํ‘ธ๋ฅธ์ƒ‰ ๋ฐ์ดํ„ฐ๋Š” BirdNet ๋ชจ๋ธ์ด ๊ด€์ธกํ•œ ํŠน์ • ์ข…์˜ ๊ฐœ์ฒด์ˆ˜์ด๊ณ , ๋ถ‰์€์ƒ‰ ๋ฐ์ดํ„ฐ๋Š” eBird์— ํƒ‘์žฌ๋œ ์ธก์ •๋œ ๊ฐœ์ฒด์ˆ˜ ๋ฐ์ดํ„ฐ์ž…๋‹ˆ๋‹ค. ๋‘ ๋ฐ์ดํ„ฐ๋Š” ์•ฝ 60%์˜ ์œ ์‚ฌ๋„๋ฅผ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.
migratory species์— ๋Œ€ํ•œ ๊ทธ๋ž˜ํ”„
non-migratory species์— ๋Œ€ํ•œ ๊ทธ๋ž˜ํ”„

4. Discussion

๋จธ์‹ ๋Ÿฌ๋‹์„ ํ†ตํ•ด ๊ตฌ์„ฑํ•œ ๋ชจ๋ธ์€ ๋งŽ์€ ์ˆซ์ž์˜ class์™€ ๋‹ค๋ฅธ domain(focal / soundscape)์—์„œ ์‚ฌ๋žŒ์ด ๊ด€์ธกํ•œ ๋ฐ์ดํ„ฐ์™€ ์œ ์‚ฌํ•œ ํŒจํ„ด์„ ๋งŒ๋“ค์–ด๋‚ผ ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๋…น์Œ๋œ ์†Œ๋ฆฌ์˜ ํ€„๋ฆฌํ‹ฐ(์‹ ํ˜ธ-๋…ธ์ด์ฆˆ ๋น„์œจ)์ด ๋‚ฎ์„ ๋•Œ๋Š” ์„ฑ๋Šฅ์ด ์ข‹์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋Œ€๋กœ, ์Œ์งˆ์ด ์ข‹์€ ์žฅ๋น„๋กœ๋Š” ์‹ ๋ขฐํ• ๋งŒํ•œ ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์™”์Šต๋‹ˆ๋‹ค. ์ด ๋•Œ๋ฌธ์—, ์—ฌ์ „ํžˆ ๋…น์Œ ์Œ์งˆ์˜ ํ€„๋ฆฌํ‹ฐ์˜ ์ฐจ์ด๋ฅผ ๊ทน๋ณตํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•œ ๊ณผ์ œ์ž…๋‹ˆ๋‹ค. ๋ชจ๋ธ์€ ๋Œ€๋ถ€๋ถ„์˜ ์ข…์˜ ์ƒˆ์— ๋Œ€ํ•ด์„œ ์ž˜ ์ž‘๋™ํ•˜๋Š” ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๋‹ค๋ฅธ ์ข…๊ณผ ์œ ์‚ฌํ•œ ํ”ํ•œ ์ข…์— ๋Œ€ํ•ด์„œ๋Š” ์ธ์‹์— ์–ด๋ ค์›€์ด ์žˆ์—ˆ์ง€๋งŒ, ์ข‹์€ ํ€„๋ฆฌํ‹ฐ์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•˜์˜€์„ ๋•Œ, ์ข…์˜ ๊ฐœ์ˆ˜๋Š” ์ •ํ™•๋„์— ํฌ๊ฒŒ ์˜ํ–ฅ์„ ๋ฏธ์น˜์ง€ ์•Š์•˜๊ณ  ๋†’์€ ์ •ํ™•๋„๋ฅผ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋Œ€๋กœ, ์žก์Œ์ด ๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•˜์˜€์„ ๋•Œ๋Š” ํ•™์Šต์—๋„ ์‹œ๊ฐ„์ด ์˜ค๋ž˜ ๊ฑธ๋ ธ๊ณ , ๋ชจ๋“  ์ข…์— ๋Œ€ํ•ด ๋‚ฎ์€ ์ •ํ™•๋„๋ฅผ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.
๋ณธ ์—ฐ๊ตฌ์˜ ๊ฒฐ๊ณผ์—์„œ 984์ข…์˜ ์ƒˆ ๋ถ„๋ฅ˜์— ๋Œ€ํ•ด F0.5 ์ ์ˆ˜ 0.414๋ฅผ ๊ธฐ๋กํ•˜์˜€๊ณ  mAP๋Š” 0.791์„ ๊ธฐ๋กํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋‹ค๋ฅธ ์—ฐ๊ตฌ์™€ ๋น„๊ตํ•˜์—ฌ ํฐ ๋ฐœ์ „์„ ์ด๋ฃจ์—ˆ์Œ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. (2020๋…„ 6์ข…์˜ ์˜ฌ๋นผ๋ฏธ์— ๋Œ€ํ•ด F0.5์ ์ˆ˜ 0.500 / 24์ข…์˜ ์ƒˆ์™€ ๊ฐœ๊ตฌ๋ฆฌ์— ๋Œ€ํ•ด mAP 0.893 / 14์ข…์˜ ์ƒˆ์— ๋Œ€ํ•ด 66.3%์˜ ์ •ํ™•๋„๋ฅผ ๋ณด์ž„)
์‹œ์Šคํ…œ์˜ detection(์†Œ๋ฆฌ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ์ง€ํ•˜๊ณ  ๋ถ„๋ฅ˜ํ•˜๊ธฐ ์œ„ํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ)์˜ ๊ฐ’์„ ์‚ฌ๋žŒ์ด ์ง์ ‘ ์กฐ์ •ํ•˜๋Š” ๊ฒƒ์ด ์ผ๋ฐ˜์ ์œผ๋กœ ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜, ์—ฌ์ „ํžˆ ์‚ฌ๋žŒ์ด ์ง์ ‘ ์ž‘์—…ํ•ด์•ผ ํ•˜๋Š” ์–‘์€ ํ›จ์”ฌ ์ค„์–ด๋“œ๋Š” ๊ฒฐ๊ณผ๋ฅผ ๊ฐ€์ ธ์™”์Šต๋‹ˆ๋‹ค.
๋˜ํ•œ, ๋ณธ ์—ฐ๊ตฌ๋ฅผ ์ง„ํ–‰ํ•˜๋ฉด์„œ ์•„๋ž˜ ์‚ฌ์‹ค๋“ค๋„ ํ™•์ธํ•˜์˜€์Šต๋‹ˆ๋‹ค.
โ€ข
๊ณ ํ•ด์ƒ๋„์˜ input spectrogram์„ ์ด์šฉํ•˜์˜€์„ ๋•Œ, ๋ถ„๋ฅ˜ ์„ฑ๋Šฅ์ด ๋›ฐ์–ด๋‚˜๋‹ค.
โ€ข
Mixup training(focal + soundscape)๋ฅผ ํ•˜์˜€์„ ๋•Œ ์„ฑ๋Šฅ์ด ๋” ์ข‹์•„์ง„๋‹ค.
โ€ข
Layer๊ฐ€ ๋งŽ์€ ๊ฒƒ์ด ํ•„ํ„ฐ๊ฐ€ ๋งŽ์€ ๊ฒƒ๋ณด๋‹ค (wide) ํ•ญ์ƒ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚ด์ง€๋Š” ์•Š๋Š”๋‹ค.
โ€ข
๊ณ„์‚ฐ ์„ฑ๋Šฅ์ด ๋‚ฎ์„ ๋•Œ, layer๊ฐ€ ๋งŽ์€ ๊ฒƒ์ด ์–•์€ ๊ฒƒ๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋” ์ข‹๋‹ค.
โ€ข
์˜ค๋””์˜ค ์ธ์‹์„ ์œ„ํ•œ ๋ชจ๋ธ์€ ์ด๋ฏธ์ง€ ์ธ์‹์„ ์œ„ํ•œ ๋ชจ๋ธ๊ณผ ๋™๋“ฑํ•œ ์„ฑ๋Šฅ์„ ๊ฐ–๋Š”๋‹ค.

5. Conclusion

BirdNET์„ ํ†ตํ•ด ํšจ์œจ์„ฑ์ด๋‚˜ ์„ฑ๋Šฅ์— ํŒจ๋„ํ‹ฐ๋ฅผ ๋ฐ›์ง€ ์•Š์œผ๋ฉด์„œ, ๋”์šฑ ๋งŽ์€ ์ข…๋ฅ˜์˜ ์ƒˆ๋ฅผ ๊ตฌ๋ณ„ํ•ด๋‚ผ ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด์ „์— ๋“ฑ์žฅํ•œ ๋งŽ์€ application์ด ํŠน์ •ํ•œ ์†Œ์ˆ˜ ์ข…์— ๋Œ€ํ•ด ๋ถ„์„ํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์‹ค์ œ ๋ฐ์ดํ„ฐ๋Š” ๋งŽ์€ ๋ถ€์ˆ˜์ ์ธ ์ข…์˜ ์šธ์Œ์†Œ๋ฆฌ๋ฅผ ํ•จ๊ป˜ ๋‹ด๊ณ ์žˆ์œผ๋ฉฐ, ๊ณผ๊ฑฐ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•ด ๋” ๋งŽ์€ community-level study์— ์˜ํ–ฅ์„ ์ค„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
BirdNET์˜ ์ง€์†์ ์ธ ๊ฐœ์„ ์„ ํ†ตํ•ด ๋” ๋งŽ์€ ์ƒˆ ์ข…์„ ํ•™์Šตํ•˜๊ณ  ๊ตฌ๋ถ„ํ•˜์—ฌ, ์กฐ๋ฅ˜ ์ƒํƒœ๊ณ„์˜ ์—ฐ๊ตฌ์™€ ๋ณด์กด์ด ๊ฐ€๋Šฅํ•ด์ง€๊ธฐ๋ฅผ ๊ธฐ๋Œ€ํ•ฉ๋‹ˆ๋‹ค.

์ฐธ๊ณ ๋ฌธํ—Œ

์—ฐ๊ตฌ ๊ฐœ์š” - https://birdnet.cornell.edu
๋…ผ๋ฌธ (1) - BirdNET: A deep learning solution for avian diversity monitoring ๋…ผ๋ฌธ (2) - Recognizing Birds from Sound - The 2018 BirdCLEF Baseline System