Использование метода Random Forest в целях прогнозирования подходов горбуши северо-востока Камчатки
https://doi.org/10.15853/2072-8212.2020.59.76-96
Аннотация
Для прогнозирования подходов камчатской горбуши используется мощный современный метод машинного обучения Random Forest — случайный лес деревьев решений. В качестве предикторов используются помесячные данные климатических индексов. В работе применяется итеративный способ отбора наиболее важных факторов. Выбор лучшей модели осуществлен по наименьшей ошибке на тестовых данных. Алгоритм применяемого метода оформлен на языке R.
Ключевые слова
Об авторе
М. Г. ФельдманРоссия
Вед. н. с.
683000 Петропавловск-Камчатский, Набережная, 18
Тел.: 8 (4152) 41-27-01
Список литературы
1. Бугаев А.В., Тепнин О.Б., Радченко В.И. 2018. Климатическая изменчивость и продуктивность тихоокеанских лососей Дальнего Востока России // Исслед. водн. биол. ресурсов Камчатки и сев.-зап. части Тихого океана. Вып. 49. С. 5–50.
2. Джеймс Г., Уиттон Д., Хасти Т., Тибширани Р. 2016. Введение в статистическое обучение с примерами на языке R. Пер. С.Э. Мастицкого. М.: ДМК Пресс, 450 с.
3. Карпенко В.И. 1998. Ранний морской период жизни тихоокенских лососей: Монография. М.: ВНИРО, 165 с.
4. Кляшторин Л.Б., Любушин А.А. 2005. Циклические изменения климата и рыбопродуктивности. М.: ВНИРО, 235 с.
5. Маркевич Н.Б., Виленская Н.И. 1998. Влияние сроков нереста и термического режима на выживаемость и рост молоди горбуши Оncorhinchus gorbusha на ключевых и русловых нерестилищах Западной Камчатки // Исслед. биологии и динамики численности промысловых рыб Камчатского шельфа. Вып. I. Ч. 1. С. 85–104.
6. Радченко В. 2017. Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес. Электронный блог компании Open Data Science, адрес доступа: https://habr.com/ru/company/ods/blog/324402/.
7. Фельдман М.Г., Шевляков Е.А. 2015. Выживаемость камчатской горбуши как результат совокупного воздействия плотностной регуляции и внешних факторов среды // Изв. ТИНРО. Т. 182. С. 88–114. Фельдман М.Г., Шевляков Е.А., Артюхина Н.Б. 2018. Оценка ориентиров пропуска производителей тихоокеанских лососей в бассейнах рек Северо-Восточной Камчатки // Исслед. водн. биол. ресурсов Камчатки и сев.-зап. части Тихого океана. Вып. 51. С. 5–26.
8. Шитиков В.К., Мастицкий С.Э. 2017. Классификация, регрессия, алгоритмы Data Mining с использованием R. Электронная книга, адрес доступа: https://github.com/ranalytics/data-mining.
9. Шунтов В.П., Темных О.С. 2005. Основные результаты изучения морского периода жизни тихоокеанских лососей в ТИНРО-Центре // Изв. ТИНРО. Т. 141. С. 30–55.
10. Шунтов В.П., Темных О.С. 2011. Тихоокеанские лососи в морских и океанических экосистемах: Монография. Т. 2. Владивосток: ТИНРО-Центр, 473 с.
11. Шуровьески Дж. 2007. Мудрость толпы. Почему вместе мы умнее, чем поодиночке, и как коллективный разум формирует бизнес, экономику, общество и государство. Пер. с англ. М.: ООО «И.Д. Вильяме», 304 с.
12. Breiman L. 1996a. Bagging Predictors // Machine Learning: journal. Vol. 24, no. 2. P. 123–140.
13. Breiman L. 1996b. Out-of-bag estimation. Technical report, Dept. of Statistics, Univ. of Calif., Berkeley. Электронный источник, адрес доступа: https:// www.stat.berkeley.edu/~breiman/OOBestimation.pdf. Breiman L. 2001. Random Forests // Machine Learning: journal. Vol. 45, no. 1. P. 5–32.
14. Breiman L., Friedman J.H., Olshen R.A., Stone C.J. 1984. Classification and regression trees. Wadsworth International Group, Belmont CA, 368 p.
15. Delgado F.M., Cernadas E., Barro S., Amorim D. 2014. Do we need hundreds of сlassifiers to solve real world classification problems? // J. of Machine Learning Research, № 15. P. 3133–3181.
16. Efron B. 1979. Bootstrap Methods: Another Look at the Jackknife. Annals of Statistics, Vol. 7. № 1. P. 1–26. Galton F. 1907. Vox populi // Nature, № 75. P. 450– 451.
17. Haeseker S., Dorner B., Peterman R., Su Z. 2007. An improved sibling model for forecasting Chum Salmon and Sockeye Salmon abundance // North American Journal of Fisheries Management. № 27. P. 634–642. Hare S.R. 1996. Low frequency climate variability and salmon production. Ph.D. Dissertation. Univ. of Washington, Seattle, WA, 306 p.
18. Hare S.R., Francis R.C. 1995. Climate change and salmon production in the Northeast Pacific Ocean // In Climate Change and Northern Fish Populations, ed. by R.J. Beamish, Can. Spec. Publ. Fish. Aquat. Sci. Vol. 121. P. 357–372.
19. Ho T.K. 1995. Random Decision Forests. Proceedings of the 3rd International Conference on Document Analysis and Recognition. Montreal, QC: 14–16 August. P. 278–282.
20. Kleinberg E. 1990. Stochastic Discrimination // Annals of Mathematics and Artificial Intelligence, Vol. 1 (1–4). P. 207–239.
21. Kleinberg E. 1996. An Overtraining-Resistant Stochastic Modeling Method for Pattern Recognition // Annals of Statistics. Vol. 24 (6). P. 2319–2349.
22. Kursa M. 2020. Boruta for those in a hurry. Электронная статья, адрес доступа: https://cran.r-project.org/web/packages/Boruta/vignettes/inahurry.pdf.
23. Kursa M., Rudnicki W. 2010. Feature Selection with the Boruta Package // J. of Statistical Software. Vol. 36 (11). P. 2–12.
24. Linkin M.E., Nigam S. 2008. The North Pacific Oscillation – West Pacific Teleconnection Pattern: Mature-Phase Structure and Winter Impacts // J. Climate. Vol. 21. № 9. P. 1979–1997.
25. Mantua N., Hare S., Zhang Y., Wallace J., Francis R. 1997. A Pacific interdecadal climate oscillation with impacts on salmon production // Bull. Amer. Meteor. Soc., № 78. P. 1069–1079.
26. Mantua N.J., Hare S.R. 2002. The Pacific Decadal Oscillation // J. of Oceanography. Vol. 58. P. 35– 44.
27. Paluszyńska A. Understanding random forests with randomForestExplainer. Электронная статья, адрес доступа: https://cran.rstudio.com/web/packages/randomForestExplainer/vignettes/randomForestExplainer.html.
28. Peterman R.M. 1982. Model of salmon age structure and its use in preseason forecasting and studies of marine survival // Canadian Journal of Fisheries and Aquatic Sciences. № 39. P. 1444–1452.
29. Quinlan J.R. 1986. Induction of Decision Trees // Machine Learning. Kluwer Academic Publishers. № 1. P. 81–106.
30. Ricker W.E. 1954. Stock and Recruitment // J. of the Fisheries Research Board of Canada. Vol. 11. № 5. P. 559–623.
31. Thompson D., Wallace J. 1998. The Arctic Oscillation signature in the wintertime geopotential height and temperature fields. Geophys. Res. Lett., Vol. 25. № 9. P. 1297–1300.
Рецензия
Для цитирования:
Фельдман М.Г. Использование метода Random Forest в целях прогнозирования подходов горбуши северо-востока Камчатки. Исследования водных биологических ресурсов Камчатки и северо-западной части Тихого океана. 2020;(59):76-96. https://doi.org/10.15853/2072-8212.2020.59.76-96
For citation:
Feldman M.H. Using the decisions of the Random Forest algorithm for the purposes of forecasting pink salmon runs on north-eastern Kamchatka. The researches of the aquatic biological resources of Kamchatka and the North-West Part of the Pacific Ocean. 2020;(59):76-96. (In Russ.) https://doi.org/10.15853/2072-8212.2020.59.76-96