์ด ๋ ผ๋ฌธ์ ์ ํํ ์ด์
๊ณต๋ถํ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ๋ํด ์ด๋ฒ์๋ ์ด๋ป๊ฒ ๋จธ์ ๋ฌ๋์ ํ์ค์ธ๊ณ์ ์ ์ฉํ๊ณ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ฌ์ฉํ๋์ง๋ฅผ ์์๋ณด๊ณ ์ถ์ด ๋
ผ๋ฌธ์ ๋ฆฌ์์น๋ฅผ ํ์์ต๋๋ค. ๊ทธ ์ค์์, ์์ฐ์์ ๋ค๋ ค์ค๋ ์์ ์ธ์์๋ฆฌ๋ค์ ๋ถ์ํด ์ข
๊ณผ ๊ฐ์ฒด์๋ฅผ ํ์
ํ๊ณ , ํ์ฌ ์ํ๊ณ์ ๊ฑด๊ฐ ์ํ์ ๋ํ ์ ๋ณด๋ฅผ ๋ฅ๋ฌ๋์ ํตํด ๋ถ์ํ๊ณ ์ ํ BirdNET์ด ์๋ฏธ๋ ์๊ณ ํฅ๋ฏธ๋ก์์ ๋ณธ ๋
ผ๋ฌธ์ ์ ํํ๊ณ ํฌ์คํธ๋ฅผ ์์ฑํ์์ต๋๋ค.
1. Introduction
์๋ค์ ๋๋ถ๋ถ์ ๋ค์ํ ํ๊ฒฝ์์ ์ด์๊ฐ๊ณ , ๋ค์ํ ํ๊ฒฝ ์์ธ๋ค๊ณผ ๊ด๊ณ๋ฅผ ๋งบ๊ณ ์์ต๋๋ค. ๋, ์์ ๋ํด์ ๋ค๋ฅธ ์ข
๋ค๋ณด๋ค ๋น๊ต์ ์ ์ฐ๊ตฌ๋์ด์๊ธฐ์ ์ํ๊ณ์ ๊ฑด๊ฐ ์ํ๋ฅผ ํ์
ํ๋ ๊ธฐ์ด๋ก ํ์ฉ๋ฉ๋๋ค.
๊ณผ๊ฑฐ์๋ ์ ์ข
์ ๋ถํฌ๋ฅผ ์กฐ์ฌํ๊ธฐ ์ํด ์ฌ๋์ด ์ง์ ํด๋น ์ฅ์์์ ์๋ฆฌ๋ฅผ ๋ฃ๊ณ ์กฐ์ฌํ์์ง๋ง, ์ธ๋ ฅ์ ํ๊ณ๋ก ์๋์ผ๋ก ์๋ฆฌ๋ฅผ ์ ์ฅํ๋ ์ฅ์น๋ฅผ ํ์ฉํด ๋ฐ์ดํฐ๋ฅผ ์์งํ์ฌ ๋ถ์์ ์งํํ์์ต๋๋ค. ๊ทธ๋ฌ๋, ์ด๋ฅผ ๋ถ์ํ๋ ์ผ ์ญ์ ์ฌ์ ํ ์ด๋ ค์ด ์ผ์ด๊ธฐ์, ๋ ๋์ ๋ถ์ ๊ฒฐ๊ณผ๋ฅผ ์ํด ๋จธ์ ๋ฌ๋์ ๋์
์ ์๋ํ๊ฒ ๋์์ต๋๋ค. ๋ณธ ๋
ผ๋ฌธ์์๋ CNN ์ํคํ
์ฒ๋ฅผ ๊ธฐ์ด๋ก ํ๋ ๋ถ๋ฅ ๋ชจ๋ธ์ ํตํด ์์ง๋ ๋
น์์ ๋ถ์ํ๋๋ก ํ์์ต๋๋ค.
2. ์ฐ๊ตฌ ๋ฐฉ๋ฒ
ํ์ฉํ ๋ฐ์ดํฐ
ํฌ๊ฒ 3๋ถ๋ฅ์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ํ์ต๊ณผ ํ
์คํธ๋ฅผ ์งํํ์์ต๋๋ค.
โข
์ 984์ข
์ ์ธ์์๋ฆฌ๋ง์ ์ง์คํ์ฌ ๋
น์ํ ์์ฑ ํ์ผ (Focal recording)
โข
์์ฐ ํ๊ฒฝ์์์ ์๋ฆฌ๋ฅผ ๋
น์ํ ์์ฑ ํ์ผ (Soundscape recording)
โข
์์ ์ธ์์๋ฆฌ๋ฅผ ์ ์ธํ ์์ฐ, ์ธ๊ณต ํ๊ฒฝ์๋ฆฌ ์์ฑ ํ์ผ (Google AudioSet)
๋จ์ผ ์ข
์ ์ง์ค๋ ๋
น์๋ณธ์ผ๋ก ํ์ตํ ๋ชจ๋ธ์ ๊ฒฝ์ฐ, ํ๊ฒฝ ๋
ธ์ด์ฆ๊ฐ ์์์ ๋ (soundscape์ ๋ํด) ์ข์ ์ฑ๋ฅ์ ๋ณด์ด์ง ์์๊ณ , ํ๊ฒฝ ๋
ธ์ด์ฆ์ ํจ๊ป ํ์ต์ ์งํํ์์ ๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
๋ฐ์ดํฐ์ ์ ์ฒ๋ฆฌ ๋ฐ ๊ฐํ
Neural Network์์ input data๋ก ๋ฐ์ดํฐ์ ๊ฐ๊ณต์ด ์ฉ์ดํ spectrogram์ ์ด์ฉํ์์ต๋๋ค.
๋ชจ๋ธ์ ์์ฑ๋ฐ์ดํฐ๋ฅผ ์
๋ ฅ์์ผ ์ฌ์ฉํ๊ธฐ ์ํด, ๋ฐ์ดํฐ์ ์ ์ฒ๋ฆฌ๋ฅผ ์งํํด์ค๋๋ค.
โข
High temporal resolution์ ์ํด Fast Fourier Transform(๊ตฌ๊ฐ์ผ๋ก ๋๋ ๋ณํ)์ ์ ์ฉํ์์ต๋๋ค.
โข
๋ฐ์ดํฐ์ ํฌ๊ธฐ๋ฅผ ์ค์ด๊ธฐ ์ํด ์ ํจํ ์ฃผํ์(150Hz~15kHz) ๋ง์ ์๋ผ๋ด์ด ์ด์ฉํ์์ต๋๋ค.
โข
์ฌ๋์ ์์ฑ์ spectrogram์ผ๋ก ๋ณํํ๊ธฐ ์ํด Mel-Spectrogram์ ๋ฐฉ๋ฒ์ ์ฃผ๋ก ์ฌ์ฉํ๋๋ฐ, ์์ ์ธ์์๋ฆฌ์ ์ฌ๋์ ์์ฑ์ด ๋ค๋ฅธ ํน์ง์ ๊ฐ์ง๋ฏ๋ก, ์ด์ ๋ํด ์ ์ฒ๋ฆฌ๋ฅผ ํตํด ์ ์ ํ ์์น๋ก ์ ์์์ผ์ฃผ์์ต๋๋ค.
Mel Spectrogram
์ฌ๋์ด ์๋ฆฌ๋ฅผ ์ธ์ํ ๋ linearํ๊ฒ ์ธ์ํ์ง ์๋๋ค. (๊ณ ์ฃผํ์ ์๋ฆฌโ 10,000Hz ์ 10,500Hzโ๋ฅผ ์ ๊ตฌ๋ถํ์ง ๋ชปํ์ง๋ง, ์ ์ฃผํ์ ์๋ฆฌโ500Hz์ 1,000Hzโ๋ ์ ๊ตฌ๋ถํจ) ์คํ๋ ค log scale๊ณผ ๋น์ทํ๋ค. ๋ฐ๋ผ์, ์๋ฆฌ ์ ํธ๋ฅผ ์ ์ฃผํ์ ๋ํด์ ๋๊ฒ, ๊ณ ์ฃผํ์ ๋ํด์ ์ข๊ฒ ๋ถํฌํ๋๋ก mel scale๋ก ๋ณํํด์ฃผ๋ฉด ๋์ฑ ์ ์ฉํ๊ฒ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ์ ์๋ค.
๋จ์ผ ์ข
๋
น์ ๋ฐ์ดํฐ์ soundscape ๊ฐ์ ์ฐจ์ด๋ฅผ ๋ณด๊ฐํ๊ธฐ ์ํด, spectrogram์ ๋ํด data augmentation์ ์งํํด์ค๋๋ค.
โข
Vertical roll / Horizontal roll
์๋ฆฌ์ pitch(vertical), time(horizontal) ๋ฌด์์ shifting ์ ํตํด ๋ค์ํ ์ธ์์๋ฆฌ ๋ฐ์ดํฐ๋ฅผ ํ๋ณด
โข
Vertical stretch / Horizontal stretch
์๋ค์ด ํน์ ํ ์ํฉ์์ ์ธ์์๋ฆฌ์ ๋๋ฎ์ด์ ํ
ํฌ๋ฅผ ๋ฐ๊พธ๋ ์ต์ฑ์ด ์๊ธฐ ๋๋ฌธ์, stretch๋ฅผ ํตํด ์ด๋ฌํ ๋ฐ์ดํฐ์ ๋ํด ๋์
โข
Elastic distortion / Warp
๋จ์ํ shift, stretch ๋ฟ๋ง ์๋๋ผ ๋ณต์กํ ๋ณํ์ ๊ฐํด (์ค์ ๋ก ๋์ค๊ธฐ ํ๋ ๋ฐ์ดํฐ์ ๋ํด์๋) ์ฌ๋ฐ๋ฅธ ๊ฒฐ๊ณผ๋ฅผ ๋ผ ์ ์๋๋ก ํ์ต
โข
Time masking / Frequency masking
DNN์ด ์๋ฏธ์ ์ผ๋ก ๋์ฑ ์ค์ํ ํน์ง์ ๋ํด ํ์ตํ ์ ์๋๋ก ์ ์
โข
Noise sample addition
์ค์ ์์ฐํ๊ฒฝ์์๋ noise๊ฐ ํจ๊ป ๋
น์๋๊ธฐ ๋๋ฌธ์, ์ด๋ฐ ํ๊ฒฝ์์์ ์์ ์์ฑ์ detectionํ๋ ๊ฒ์ ํ๋ จ์ํค๊ธฐ ์ํด ์ผ๋ถ๋ฌ noise๋ฅผ ์ถ๊ฐ
๋ชจ๋ธ์ ๊ตฌ์กฐ
Extremely Deep Architecture ์ ์ ์ฌํ ์ฑ๋ฅ์ ๋ณด์ผ ์ ์๋ Wide ResNet architecture์ BirdNET ๊ตฌํ์ ์ํด ์ฌ์ฉํ์์ต๋๋ค. ResNet์ Width๋ 4, Depth๋ 3์ผ๋ก ์ธํ
ํ์ฌ 157๊ฐ์ layer๋ก ๊ตฌ์ฑ๋์์ต๋๋ค. layer๋ ์๋์ 3๊ฐ์ง ์ฃผ์ component๋ฅผ ๊ฐ์ต๋๋ค.
1.
์ ์ฒ๋ฆฌ Block
Original input spectrogram์ residual stack์ ๋ค์ด๊ฐ๊ธฐ ์ ์ ๋ณํ์ฒ๋ฆฌ๋ฅผ ํด์ค๋ค.
2.
Residual Stack
Downsampling๊ณผ regular residual block์ด ํน์ง์ ์ ๋ฝ์๋ธ๋ค.
3.
Classification block
987์ข
์ ์์ ๋ํ ํ๋ฅ ์ ๊ตฌํ๋ค.
๋ชจ๋ธ ํ์ต
๊ฐ class ๋น 3500๊ฐ์ sample์์ ์ถ์ถํ 1.5M ๊ฐ์ spectrogram์ผ๋ก training set์ ๋ง๋ค์์ต๋๋ค. ๋, ๋์ฑ ์ข์ ํ์ต๊ฒฐ๊ณผ๋ฅผ ์ํด 3๊ฐ์ spectrogram์ 1๊ฐ์ sample์ ๋ด์ mixup training set์ ๊ตฌ์ฑํ์์ต๋๋ค.
Optimizer๋ก ADAM์ learning rate 0.001๋ก ์ฌ์ฉํ์์ต๋๋ค.
3. Result
System์ ๋น๊ต๋ฅผ ์ํด sample-wise(mAP)์ class-wise average precision (cmAP)๋ฅผ ์ด์ฉํ์์ต๋๋ค. ํ์ค์ธ๊ณ์ common species์ ๋ํ case๋ฅผ ๋ฐ์ํ๊ธฐ ์ํด, training sample์ class์ ๋ถ๊ท ํํ๊ฒ ํผ์ ธ์๋๋ก ๊ตฌ์ฑํ์์ต๋๋ค.(ํํ ์ข
์ ๋ ๋ง์ด ์ฌ์ฉํ์์) ์ด๋ฅผ ํตํด class-wise evaluation์ด balanced ๋๊ฒ ๋ง๋ค์ด์ค๋๋ค. several complementary metrics๋ฅผ ์ด์ฉํด ์ ๊ทผ๋ฐฉ๋ฒ์ ํ๊ฐํ๊ณ ์ ํ์์ต๋๋ค.
Focal recording evaluation
test data๋ 984์ข
์ ์์ ๋ํ 22,960๊ฐ์ focal recording๋ก ๊ตฌ์ฑ๋์์ต๋๋ค. mAP 0.791, cmAP 0.694๋ฅผ ๊ธฐ๋กํ์์ต๋๋ค. primary prediction๋ง์ ๊ณ ๋ คํ์์๋, top-1 accuracy 0.777, AUC 0.974๋ฅผ ๊ธฐ๋กํ์์ต๋๋ค. mean confidence value(ํ๊ท ์ ๋ขฐ๊ฐ - ๊ตฌ๊ฐ)์ด 0.627์ ๊ธฐ๋กํ์์ต๋๋ค.
training data์ ์ ์ฌํ focal recording์ ๋ํด์๋ ์ค์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค. ๊ทธ๋ฌ๋, soundscape์์๋ domain shift๋ก ์ธํ ์ด๋ ค์์ด ์์ต๋๋ค.
Soundscape recording evaluation
๊ตฌ์ฑํ ๋ชจ๋ธ์ soundscape์ ๋ํด์๋ ์ฑ๋ฅ์ด ํฌ๊ฒ ๋ฎ์์ง๋ ๋ชจ์ต์ ๋ณด์ฌ์ค๋๋ค. F0.5 score๋ก 0.414๋ฅผ ๊ธฐ๋กํ์์ต๋๋ค. ์๊ฐ ๊ฐ์ฅ ๋ง์ด ์ฐ๋ ์๊ฐ๋์ธ ํด๊ฐ ๋จ๊ธฐ ์ ํ 1์๊ฐ ๋์์ ๋ฐ์ดํฐ์ ๋ํด์๋ ์์ ์ธ์์๋ฆฌ๊ฐ ๋ง์์ก์์๋ ๋ถ๊ตฌํ๊ณ F0.5 score๋ก 0.395๋ฅผ ๊ธฐ๋กํ์์ต๋๋ค.
์ ๋ฐ์ ์ธ AUC๋ 0.596๋ก, ํ์ฒ๋ฆฌ confidence value(์ ๋ขฐ ๊ฐ)์ด false positive๋ฅผ ์ฝ๊ฒ ์ค์ผ ์ ์์์ ๋งํฉ๋๋ค. post-filtering๊ณผ ๊ฐ์ eBird bar chard data๊ฐ ๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค.
soundscape์ ๋ํ ๋ชจ๋ธ์ ์ฑ๋ฅ์ organizer์ ์ํด ๋์ผ ์ฅ์์์ ๋
น์๋ 3-day subset ์ ํตํด ํ์ตํ์์ ๋ ๋์ ๋๊ฒ ์ข์์ก์ต๋๋ค. single-model ์ฑ๋ฅ์ F0.5๊ฐ 0.416์ผ๋ก ์์นํ์์ต๋๋ค.
Evaluation on continuous stream data
๋ณธ ๋ชจ๋ธ์ ๋ณธ๋ ๋ชฉ์ ๊ณผ ๋ง๊ฒ, ์์ฐ์์์์ ์ ์๋ฆฌ๋ฅผ ๋ฃ๊ณ ์์ ์ข
๋ถํฌ์ ๋ฐ๋ฅธ ๋ ์จ ๋ฑ์ ํ๊ฒฝ ๋ณํ๋ฅผ ์ฐพ์๋ด๋ ๊ฒ์ด ์ค์ํฉ๋๋ค. Soundscape test dataset์ 5๊ฐ์ ์ค 12์ผ์ ์์ฑํ์ผ์ ๋ํ ๋ถ์์ด๊ธฐ์ ๋ณธ ๋ชฉ์ ๊ณผ ๋ถํฉํ์ง ์๊ธฐ ๋๋ฌธ์, ์ฝ๋ฌ ๋ํ๊ต ๊ทผ์ฒ์์ 4๋
์ฐ์์ผ๋ก ๋
น์๋ ์์ฑ ํ์ผ์ ๋ถ์์ ์งํํ์์ต๋๋ค. 4๋
์ ๊ธฐ๊ฐ ์ค 96.1%์ ํด๋นํ๋ 33,670h์ ๋
น์ํ์ผ์ ๋ถ์ํ์๊ณ , ์์น๋ฅผ ์กฐ์ ํ์ฌ ๊ฐ๋ตํ๊ฒ ๋ถ์์ ์งํํ์์ต๋๋ค.
4๊ฐ์ ์ฅ์์์์ ๊ด์ฐฐ์ ํฉ์ณค์ ๋, 121์ข
์ ์ฒ ์์ ํ
์๋ฅผ ๊ด์ฐฐํ ์ ์์๊ณ , ๊ด์ธก ๋ฐ์ดํฐ๋ง์ผ๋ก ๊ณ์ ์ ํจํด์ ์์ธกํ ์ ์์์ต๋๋ค. ์๋ ๊ทธ๋ํ๋ ์์์ง๋ฅผ ์ด๋ํ๋ ์(migratory species)์ ํน์ ์ง์ญ์ ๋จธ๋ฌด๋ฅด๋ ์ ์ข
(non-migratory species)์ ๊ฐ์ฒด์๋ฅผ ์ธก์ ํ ๊ทธ๋ํ์
๋๋ค. ํธ๋ฅธ์ ๋ฐ์ดํฐ๋ BirdNet ๋ชจ๋ธ์ด ๊ด์ธกํ ํน์ ์ข
์ ๊ฐ์ฒด์์ด๊ณ , ๋ถ์์ ๋ฐ์ดํฐ๋ eBird์ ํ์ฌ๋ ์ธก์ ๋ ๊ฐ์ฒด์ ๋ฐ์ดํฐ์
๋๋ค. ๋ ๋ฐ์ดํฐ๋ ์ฝ 60%์ ์ ์ฌ๋๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
migratory species์ ๋ํ ๊ทธ๋ํ
non-migratory species์ ๋ํ ๊ทธ๋ํ
4. Discussion
๋จธ์ ๋ฌ๋์ ํตํด ๊ตฌ์ฑํ ๋ชจ๋ธ์ ๋ง์ ์ซ์์ class์ ๋ค๋ฅธ domain(focal / soundscape)์์ ์ฌ๋์ด ๊ด์ธกํ ๋ฐ์ดํฐ์ ์ ์ฌํ ํจํด์ ๋ง๋ค์ด๋ผ ์ ์์์ต๋๋ค. ๋
น์๋ ์๋ฆฌ์ ํ๋ฆฌํฐ(์ ํธ-๋
ธ์ด์ฆ ๋น์จ)์ด ๋ฎ์ ๋๋ ์ฑ๋ฅ์ด ์ข์ง ์์์ต๋๋ค. ๋ฐ๋๋ก, ์์ง์ด ์ข์ ์ฅ๋น๋ก๋ ์ ๋ขฐํ ๋งํ ๊ฒฐ๊ณผ๊ฐ ๋์์ต๋๋ค. ์ด ๋๋ฌธ์, ์ฌ์ ํ ๋
น์ ์์ง์ ํ๋ฆฌํฐ์ ์ฐจ์ด๋ฅผ ๊ทน๋ณตํ๋ ๊ฒ์ด ์ค์ํ ๊ณผ์ ์
๋๋ค. ๋ชจ๋ธ์ ๋๋ถ๋ถ์ ์ข
์ ์์ ๋ํด์ ์ ์๋ํ๋ ๊ฒ์ ํ์ธํ ์ ์์์ต๋๋ค. ๋ค๋ฅธ ์ข
๊ณผ ์ ์ฌํ ํํ ์ข
์ ๋ํด์๋ ์ธ์์ ์ด๋ ค์์ด ์์์ง๋ง, ์ข์ ํ๋ฆฌํฐ์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ์์ ๋, ์ข
์ ๊ฐ์๋ ์ ํ๋์ ํฌ๊ฒ ์ํฅ์ ๋ฏธ์น์ง ์์๊ณ ๋์ ์ ํ๋๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๋ฐ๋๋ก, ์ก์์ด ๋ง์ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ์์ ๋๋ ํ์ต์๋ ์๊ฐ์ด ์ค๋ ๊ฑธ๋ ธ๊ณ , ๋ชจ๋ ์ข
์ ๋ํด ๋ฎ์ ์ ํ๋๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
๋ณธ ์ฐ๊ตฌ์ ๊ฒฐ๊ณผ์์ 984์ข
์ ์ ๋ถ๋ฅ์ ๋ํด F0.5 ์ ์ 0.414๋ฅผ ๊ธฐ๋กํ์๊ณ mAP๋ 0.791์ ๊ธฐ๋กํ์์ต๋๋ค. ๋ค๋ฅธ ์ฐ๊ตฌ์ ๋น๊ตํ์ฌ ํฐ ๋ฐ์ ์ ์ด๋ฃจ์์์ ํ์ธํ ์ ์์ต๋๋ค. (2020๋
6์ข
์ ์ฌ๋นผ๋ฏธ์ ๋ํด F0.5์ ์ 0.500 / 24์ข
์ ์์ ๊ฐ๊ตฌ๋ฆฌ์ ๋ํด mAP 0.893 / 14์ข
์ ์์ ๋ํด 66.3%์ ์ ํ๋๋ฅผ ๋ณด์)
์์คํ
์ detection(์๋ฆฌ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์งํ๊ณ ๋ถ๋ฅํ๊ธฐ ์ํ ํ๋ผ๋ฏธํฐ)์ ๊ฐ์ ์ฌ๋์ด ์ง์ ์กฐ์ ํ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ผ๋ก ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๊ทธ๋ฌ๋, ์ฌ์ ํ ์ฌ๋์ด ์ง์ ์์
ํด์ผ ํ๋ ์์ ํจ์ฌ ์ค์ด๋๋ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ ธ์์ต๋๋ค.
๋ํ, ๋ณธ ์ฐ๊ตฌ๋ฅผ ์งํํ๋ฉด์ ์๋ ์ฌ์ค๋ค๋ ํ์ธํ์์ต๋๋ค.
โข
๊ณ ํด์๋์ input spectrogram์ ์ด์ฉํ์์ ๋, ๋ถ๋ฅ ์ฑ๋ฅ์ด ๋ฐ์ด๋๋ค.
โข
Mixup training(focal + soundscape)๋ฅผ ํ์์ ๋ ์ฑ๋ฅ์ด ๋ ์ข์์ง๋ค.
โข
Layer๊ฐ ๋ง์ ๊ฒ์ด ํํฐ๊ฐ ๋ง์ ๊ฒ๋ณด๋ค (wide) ํญ์ ์ข์ ์ฑ๋ฅ์ ๋ด์ง๋ ์๋๋ค.
โข
๊ณ์ฐ ์ฑ๋ฅ์ด ๋ฎ์ ๋, layer๊ฐ ๋ง์ ๊ฒ์ด ์์ ๊ฒ๋ณด๋ค ์ฑ๋ฅ์ด ๋ ์ข๋ค.
โข
์ค๋์ค ์ธ์์ ์ํ ๋ชจ๋ธ์ ์ด๋ฏธ์ง ์ธ์์ ์ํ ๋ชจ๋ธ๊ณผ ๋๋ฑํ ์ฑ๋ฅ์ ๊ฐ๋๋ค.
5. Conclusion
BirdNET์ ํตํด ํจ์จ์ฑ์ด๋ ์ฑ๋ฅ์ ํจ๋ํฐ๋ฅผ ๋ฐ์ง ์์ผ๋ฉด์, ๋์ฑ ๋ง์ ์ข
๋ฅ์ ์๋ฅผ ๊ตฌ๋ณํด๋ผ ์ ์๊ฒ ๋์์ต๋๋ค. ์ด์ ์ ๋ฑ์ฅํ ๋ง์ application์ด ํน์ ํ ์์ ์ข
์ ๋ํด ๋ถ์ํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ๊ทธ๋ฌ๋ ์ค์ ๋ฐ์ดํฐ๋ ๋ง์ ๋ถ์์ ์ธ ์ข
์ ์ธ์์๋ฆฌ๋ฅผ ํจ๊ป ๋ด๊ณ ์์ผ๋ฉฐ, ๊ณผ๊ฑฐ์ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด ๋ ๋ง์ community-level study์ ์ํฅ์ ์ค ์ ์์ต๋๋ค.
BirdNET์ ์ง์์ ์ธ ๊ฐ์ ์ ํตํด ๋ ๋ง์ ์ ์ข
์ ํ์ตํ๊ณ ๊ตฌ๋ถํ์ฌ, ์กฐ๋ฅ ์ํ๊ณ์ ์ฐ๊ตฌ์ ๋ณด์กด์ด ๊ฐ๋ฅํด์ง๊ธฐ๋ฅผ ๊ธฐ๋ํฉ๋๋ค.
์ฐธ๊ณ ๋ฌธํ
์ฐ๊ตฌ ๊ฐ์ - https://birdnet.cornell.edu
๋
ผ๋ฌธ (1) - BirdNET: A deep learning solution for avian diversity monitoring
๋
ผ๋ฌธ (2) - Recognizing Birds from Sound - The 2018 BirdCLEF Baseline System