تعیین براوردگرهای انقباضی پارامترهای کیفیت در مدل‌های خطی بیزی تعمیم‌یافته فوق بالا بعد

نوع مقاله : مقاله پژوهشی

نویسندگان

1 استاد تمام، گروه آمار، دانشکده آمار، ریاضی و رایانه، دانشگاه علامه طباطبایی، تهران، ایران

2 دانشجوی دکتری، گروه آمار، دانشکده آمار، ریاضی و رایانه، دانشگاه علامه طباطبایی

3 دانشیار، گروه آمار، دانشکده آمار، ریاضی و رایانه، دانشگاه علامه طباطبایی

چکیده

چکیده: یکی از مسائل اساسی در تجزیه و تحلیل‌ داده‌های فوق بالابعد، برازش مدل بهینه و براورد پارامترهای نامعلوم کیفیت آن به‌گونه‌ای است که بتواند ساختار داده‌های مورد بررسی را به‌درستی تفسیر کند. در این مقاله در انتخاب متغیر به روش‌های انقباضی بیزی برای مدل‌های خطی تعمیم‌یافته فوق بالابعد به مقایسه دو ابرپیشین ناموضعی: گشتاور ضربی و گشتاور وارون ضربی در تعیین مدل بهینه هم‌زمان با براورد پارامترهای مدل می‌پردازیم. به‌منظور محاسبه احتمال‌های پسین، از روش تقریب لاپلاس و جهت انتخاب مدل بهینه در فضای متراکم احتمال‌های پسین، از الگوریتم تکراری جستجوی تصادفی تفنگی ساده شده همراه با غربالگری استفاده شده است. در انتها از طریق مطالعه شبیه‌سازی و تحلیل داده‌‌ی واقعی، کارایی روش‌های انقباضی بیزی فوق با روش درست‌نمایی تاوانیده‌ی اسکاد و لاسو مورد ارزیابی قرار گرفته است و برتری مدل نشان داده شده است .

کلیدواژه‌ها


عنوان مقاله [English]

Bayesian Shrinkage Estimators of Quality Parameters in Ultrahigh-Dimensional Generalized Linear Models.

نویسندگان [English]

  • Farzad Eskandari 1
  • Robabeh Hosseinpour Samim Mamaghani 2
  • Vahid Rezaei Tabar 3
1 Full Professor, Department of Statistics, Faculty of Statistics, Mathematics and Computer, Allameh Tabataba’i University
2 Robabeh Hosseinpour Samim Mamaghani Ph.D. Student, Department of Statistics, Faculty of Statistics, Mathematics and Computer, Allameh Tabataba’i University
3 Professor, Department of Statistics, Faculty of Statistics, Mathematics and Computer, Allameh Tabataba’i University
چکیده [English]

Abstract: One of the basic issues in Ultrahigh-dimensional data analysis is fitting the optimal model and estimating its unknown quality parameters in such a way that it can correctly interpret the structure of the investigated data. In this article, we compare two non-local hyper priors: hyper product moment and hyper product inverse moment priors in determining the optimal model at the same time as estimating the parameters in variable selection using Bayesian Shrinkage in ultrahigh-dimensional generalized linear models. In order to compute the posterior probabilities, the Laplace approximation method was used, and to select the optimal model in the model space of posterior probabilities, Simplified shotgun stochastic search algorithm with screening (S5) for GLMs was used along with screening. Finally, through the study of simulation and real data analysis, the effectiveness of the above Bayesian Shrinkage methods has been evaluated with the ISIS-LASSO and ISIS-SCAD method. The advantage of the model is shown.

کلیدواژه‌ها [English]

  • Variable Selection
  • Ultrahigh dimensional
  • Penalized likelihood
  • LASSO
  • Quality Parameters
  • Optimization
Zellner, A. (1971), An introduction to Bayesian inference in econometrics, John Wiley & Sons Inc.
Berger, J. O., Pericchi, L. R., Ghosh, J., Samanta, T., & De Santis, F. (2001), “Objective Bayesian methods for model selection: Introduction and comparison,” Lecture Notes Monograph Series, 135–207.
Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society: Series B (Methodological), 58(1), 267-288.
Liang, F., Truong, Y. K., & Wong, W. H. (2001). Automatic Bayesian model averaging for linear regression and applications in Bayesian curve fitting. Statistica Sinica, 1005-1029.
Liang, F., Song, Q., & Yu, K. (2013). Bayesian subset modeling for high-dimensional generalized linear models. Journal of the American Statistical Association, 108, 589-606.
Zellner, A. (1986). On assessing prior distributions and Bayesian regression analysis with g-prior distributions. Bayesian inference and decision techniques.
Liang, F., Paulo, R., Molina, G., Clyde, M. A., & Berger, J. O. (2008). Mixtures of g priors for Bayesian variable selection. Journal of the American Statistical Association103, 410-423.
Bové, D. S., & Held, L. (2011). Hyper-g priors for generalized linear models. Bayesian Analysis, 6, 387-410.
Fan, J., & Lv, J. (2008). Sure independence screening for ultrahigh dimensional feature space. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 70, 849–911.
Fan, J., Samworth, R., & Wu, Y. (2009). Ultrahigh dimensional feature selection: beyond the linear model. The Journal of Machine Learning Research10, 2013-2038.
Fan, J., & Song, R. (2010). Sure independence screening in generalized linear models with NP-dimensionality. The Annals of Statistics, 38(6), 3567-3604.
Johnson, V. E., & Rossell, D. (2012). Bayesian model selection in high-dimensional settings. Journal of the American Statistical Association107, 649-660.
 
[13] Rossell, D., & Telesca, D. (2017). Nonlocal priors for high-dimensional estimation. Journal of the American Statistical Association, 112, 254-265.
Shin, M., Bhattacharya, A., & Johnson, V. E. (2018). Scalable Bayesian variable selection using nonlocal prior densities in ultrahigh-dimensional settings. Statistica Sinica, 28(2), 1053.
Nikooienejad, A., Wang, W., & Johnson, V. E. (2016). Bayesian variable selection for binary outcomes in high-dimensional genomic studies using non-local priors. Bioinformatics, 32, 1338-1345.
Nikooienejad, A., Wang, W., & Johnson, V. E. (2020). Bayesian variable selection for survival data using inverse moment priors. The annals of applied statistics, 14, 809.
Wu, H. H., Ferreira, M. A., Elkhouly, M., & Ji, T. (2020). Hyper nonlocal priors for variable selection in generalized linear models. Sankhya A, 82, 147-185.
Johnson, V. E., & Rossell, D. (2010). On the use of non‐local prior densities in Bayesian hypothesis tests. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 72, 143-170.
Robert, C. P. (2007). The Bayesian choice: from decision-theoretic foundations to computational implementation, Vol. 2. New York: Springer.
Tierney, L., & Kadane, J. B. (1986). Accurate approximations for posterior moments and marginal densities. Journal of the american statistical association, 81, 82-86.
Narisetty, N. N., Shen, J., & He, X. (2018). Skinny gibbs: A consistent and scalable gibbs sampler for model selection. Journal of the American Statistical Association.
Golub, T. R., Slonim, D. K., Tamayo, P., Huard, C., Gaasenbeek, M., Mesirov, J. P., Coller, H., Loh, M. L., Downing, J. R., Caligiuri, M. A., et al. (1999), “Molecular classification of cancer: class discovery and class prediction by gene expression monitoring,” science, 286, 531–537