Evrişimsel Sinir Ağlarında Kullanılan Transfer ÖğrenmeYaklaşımlarının İncelenmesi

9ENA...CWmE
17 Jan 2024
42
1.Giriş

Eğitim bilimlerinde öğrenme kavramı, “bireyin, yaşantılar sonucu davranışında meydana gelen kalıcı değişiklik” olarak tanımlanmaktadır. Yapay öğrenme, yapay bir sistemin (yazılımın) gerçek bir sistemi taklit edebilmesi, yani benzer girişlere benzer çıktılar üretebilmesi için parametrelerini güncelleme işlemidir.
Güncel bir yapay öğrenme yaklaşımı olan derin öğrenme, yüksek doğrulukta sınıflandırma kabiliyetine sahip olması nedeniyle birçok araştırmacının ilgisini çekmeyi başarmıştır. Klasik yapay sinir ağı yaklaşımından üç temel farklılığı görülmektedir: 1) Sistem girişi vektör yerine imge olabilir; 2) Ara katman sayısı oldukça fazla olabilir (örnek olarak GoogleNet [3] 22 katman); 3) Eğitim kümesindeki imge ve kategori sayısı oldukça yüksek olabilir (örnek olarak Yahoo Flickr [4] 100M imge ve 2K kategori). Bunun yanında Boltzman makineleri, autoencoders, derin inanç ağları, ve evrişimsel sinir ağları (ESA), derin öğrenme alanında kullanılan farklı mimariler olarak öne çıkmaktadır.
Kullanım kolaylığı, yüksek eşleştirme kabiliyeti ve GPU destekli paralel çalışma özellikleri nedeniyle ESA, örüntü sınıflandırma, nesne tanıma ve tespit etmede güncel yöntemler içerisinde yer almaktadır [5][6][7]. Ayrıca ESA mimarisi ilk olarak ImageNet [8] ( 1000 sınıf ve 1000000 resim) gibi büyük bir eğitim kümesinde kullanılmıştır. Giriş imgelerin ilgili sınıflara yüksek bir doğrulukta (eğitim hatası: 0.15) eşleştiğini gösteren bu çalışma birçok araştırmacıya ilham kaynağı olmuştur [9].
Problem çözümlerinde ESA’yı tercih eden araştırmacıların sıklıkla rastladığı sorunlardan biri eğitim probleme özgü eğitim veri kümesinin teminidir. ESA’nın yüksek katman sayısıyla probleme göre genel ve özel öznitelikleri doğru bir şekilde çıkarabilmesi için nicel ve nitel olarak yeterli örüntüleri içeren bir eğitim kümesinin araştırmacılar tarafından oluşturulması gerekmektedir. Örnek olarak ImageNet veri kümesi, bir milyon imgenin sırayla bin kategoriden biriyle etiketlenmesi sonucu oluşmuştur. Büyük bir emek sonucu hazırlanan bu eğitim kümesi kullanılarak eğitilen bir ESA oldukça yüksek doğrulukta sınıflandırma yapabilmektedir. Ancak probleme özgü (örneğin medikal imge sınıflamada) etiketlenmiş yeterli sayıda veri bulmak oldukça güçtür veya bulunamamaktadır. Yeterli verinin bulunamaması durumunda yüksek sınıflama doğruluğu sağlayan ESA’yı nasıl kullanacağız sorunu karşımıza çıkmaktadır. Bu sorunun çözümü için “bilgi transferi” yaklaşımı kullanılmaktadır. Bilgi transferi ImageNet ve ya eğitim başarısı ispatlanmış bir veri kümesi ile eğitilmiş bir ESA ağından bilgi transferinin gerçekleştirilmesidir. Literatürde “transfer öğrenme” olarak adlandırılan bu yöntem, derin öğrenme yöntemlerinin geliştirilmesiyle önemli bir araştırma konusu haline gelmiştir. Transfer öğrenme yaklaşımları, insan öğrenme modelinden etkilenmektedir. İnsanlar öğrenme işleminde, daha önce karşılaşmadıkları bir problemi çözmek için hayatında önceden tecrübe ettiği problemlerin çözümünden faydalanır [10][11]. Özetle, büyük bir veri kümesiyle eğitilmiş bir ağın ağırlıkları farklı bir veri kümesi için kullanılması anlamına gelir. Transfer öğrenme yaklaşımları Prat’ın (1993) çalışması ile ivme kazanmıştır [11]. Bu çalışmada etiketlenmiş bir veri kümesiyle eğitim yapıldıktan sonra öğrenilen katsayılar kullanılarak farklı bir veri kümesi sınıflandırılmak istenmiştir. Ayrıca literatürde transfer öğrenmeyi takviyeli öğrenme üzerinde kullanan ve özellik transferi yapan çalışmalar bulunmaktadır [12].

2. Evrişimsel Sinir Ağları

Sınıflandırma başta olmak üzere birçok bilgisayarlı görü alanında kullanılan evrişimsel sinir ağları klasik sinir ağlarından farklı olarak, evrişim özellik çıkarma ve sınıflandırma katmanlarını içermektedir. Klasik bir ESA yapısı Şekil 1 de gösterilmiştir.

3. Transfer Öğrenme

Transfer öğrenme yapay öğrenme sistemlerinin eğitim aşamasıyla öğrendiği bilgiyi farklı ve ya benzer problem çözümlerinde kullanılmasını inceleyen öğrenme yaklaşımıdır. İnsan tabiatının temellinde, transfer öğrenme yaklaşımı bulunmaktadır. Yani insanoğlu bilerek ya da bilmeyerek geçmiş tecrübelerinden yararlanarak karşısına çıkan farklı bir olaya çözüm bulmaktadır [11]. Gerçek hayatta insanın ilk kez karşılaştığı ve ani karar vermek zorunda olduğu (eğitim bilgisi edinmeye zamanı olmadığı) anlar olabilir. Bu anlarda insanın vereceği kararlar, hayatı boyunca öğrendiği sistemin yeni duruma tepkisi olacaktır. Şekil 2’de transfer öğrenmenin temel şeması gösterilmektedir.

4.Deneysel Sonuçlar

ESA’lar için kısmı özellik çıkarıcı ve özellik çıkarıcı transfer öğrenme yaklaşımları Tablo 1’ de özellikleri verilen farklı veri kümeleri uygulanmış ve sınıflama sonuçları bu bölümde detaylandırılmıştır. Deneysel sonuçlar Matlab2018b ortamında ve 20 çekirdeğe sahip 2 işlemciden oluşan bir Cpu, Nvidia quard 4000 gpu hızlandırıcı kartta ve 64 gb ram sahip hesaplama sunucusunda yürütülmüştür. Transfer edilecek ağırlıklar, ImageNet ile eğitilmiş 8 katmandan oluşan ve AlexNet olarak bilinen ESA’dan öneğitim olarak alınmıştır.

5. Sonuçlar

ESA’ lar kullanılarak resimler üzerinde sınıflama yapmak literatürde yaygın kullanılan bir yöntemdir. ESA’ larda kullanılan özellik çıkarcı ve kısmı özellik çıkarıcı transfer öğrenme yöntemleri secimi hedef veri setindeki veri sayısı, kaynak veri setine olan benzerliğine göre değişmektedir. Öneğitim modeli hem özellik çıkarıcı hem de kısmı özellik çıkarıcı yaklaşımında standart olarak kullanılmaktadır. Alexnet’ in ağ ağırlıklarını araştırmacılar için paylaşması eğitimi günler süren önemli bir ESA’ nın problemler için genelleştirmesini sağlamaktadır. Bu makale çalışmasında eğitim verisinin durumuna göre hangi transfer yönteminin seçileceği ve aktarılan verilerin ESA için neler olacağı detaylı bir şeklide verilmiştir. Kısaca kaynak veri seti bilgilerle aynı özelliğe sahip bir hedef veri setine sahip ve elimizdeki hedef veri sayısı az ise kaynak ağın ilk katmanları özellik çıkarcı olarak kullanılarak son katmanına liner bir sınıflandırıcı koymak gerektiği; veri sayısı fazla ise kaynak ağın hedef veri setiyle kısmi özellik çıkarıcının uygun olacağı sonucuna varılmıştır. Eğer kaynak veri seti ile hedef veri seti aynı özelliğe sahip değilse hedef veri seti sayısı az ise kaynak ağın sadece sınıflandırma katmanı destek vektör makinalarıyla yer değiştirmek gerekir. Ayrıca az sayıda veriyi sadece destek vektör makinası ile eğitmek yeterli olmaktadır. Eğer hedef veri kümesi fazla ise kaynak ağın bütün katmanlarının kısmi özellik çıkarma yaklaşımı ile tekrardan eğitilmesi, sınıflama doğruluk oranının yükselmesine neden olmaktadır.

Kaynakça

[1] Ethem Alpaydın, “Introduction to Machine Learning (Adaptive Computation and Machine Learning).”, MIT Press, 2004.
[2] C. M. Bishop, “Pattern Recognition and Machine Learning. Springer Science + Business Media”, LLC, 2006.
3] C. Szegedy et al., “Going Deeper with Convolutions,” in Computer Vision and Pattern Recognition (CVPR), 2014.
[4] İnternet, “Yahoo Flickr.” [Online]. Available: https://www.flickr.com/photos/tags/yahoo/. [Accessed: 30-Dec2017].
[5] E. Cengil, A. Çınar, Z. Güler “A GPU-Based Convolutional Neural Network Approach for Image Classification,” in Artificial Intelligence and Data Processing Symposium (IDAP), 2017. [6] Şengör, Abdülkadir; Yaman, Akbulut; Yanhui, Guo; Varun, “Classification of amyotrophic lateral sclerosis disease based on convolutional neural network and reinforcement sample learning algorithm,” Heal. Inf. Sci. Syst., 2017.
[7] R. Girshick, J. Donahue, T. Darrell, J. Malik, and U. C. Berkeley, “Rich feature hierarchies for accurate object detection and semantic segmentation,” Comput. Vis. Pattern Recognition. IEEE, pp. 580–587, 2014.
[8] İnternet, “Image.net,” 2018. [Online]. Available: http://www.image-net.org. [Accessed: 20-Dec-2017].
[9] A. Krizhevsky and G. E. Hinton, “ImageNet Classification with Deep Convolutional Neural Networks,” Adv. Neural Inf. Process. Syst., vol. 1907–1105, pp. 1–9, 2012.
[10] S. J. Pan and Q. Yang, “A Survey on Transfer Learning,” IEEE Trans. Knowl. Data Eng., vol. 22, no. 10, 2010.
[11] Barış Koçer, “Transfer Öğrenmede Yeni Yaklaşımlar”, Selçuk Üniversitesi, Doktora Tezi, 2012.
[12] G. Konidaris and A. G. Barto, “Transfer in Reinforcement Learning via Shared Features,” J. ofMachine Learn. Res., vol. 13, pp. 1333–1371, 2012.
[13] J. Yosinski, J. Clune, Y. Bengio, and H. Lipson, “How transferable are features in deep neural networks ?,” Adv. Neural Inf. Process. Syst., vol. 27, 2014.
[14] Esra Mahsereci Karabulut, “Investıgatıon Of Deep Learnıng Approaches For Bıomedıcal Data Classıfıcatıon,” Çukurova Unıversıty, Doktora Tezi, 2016.
[15] Britz Denny, “Understanding Convolutional Neural Networks for NLP,” 2015. [Online]. Available: 20-Dec2017 http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/. [Accessed: 30- Dec-2017].

Write & Read to Earn with BULB

Learn More

Enjoy this blog? Subscribe to peredhel

1 Comment

B
No comments yet.
Most relevant comments are displayed, so some may have been filtered out.