Güçlendirme Öğrenme Vs. Derin Güçlendirme Öğrenmesi: Fark Nedir?

İçerik

Güçlendirme Öğrenmesi Nedir?
Hata Yok, Stres Yok - Hayatınızı Yok Etmeden Hayat Değiştiren Yazılım Yaratma Adım Adım Kılavuzunuz
Derin Takviye Öğrenmesi Nedir?

Paket servisi:

Uzmanlara gittik ve takviye öğrenimi ile derin kuvvetlendirme öğrenimi arasındaki önemli farklılıkları yanıtlamalarını istedik.

Makine öğrenmesi algoritmaları, tüm insan ekiplerine göre daha hızlı ve daha akıllı çalışırken bizi gereksiz görevlerden kurtarıp, hayatı ve işi kolaylaştırabilir. Ancak, farklı makine öğrenmesi türleri vardır. Örneğin, donatı öğrenmesi ve derin donatı öğrenmesi var.

Wayne, New Jersey'deki William Paterson Üniversitesi'nde bilgisayar bilimi profesörü olan Dr. Kiho Lim'a göre, “Takviye öğrenmesi ve derin takviye öğrenmesi, her ikisi de özerk olarak öğrenen makine öğrenme teknikleri olsa da, bazı farklılıklar var”. “Güçlendirme öğrenme, sonucu en üst düzeye çıkarmak için deneme yanılma yöntemiyle dinamik bir şekilde öğrenirken, derin güçlendirme öğrenme mevcut bilgilerden öğrenme ve bunu yeni bir veri setine uygulamaktır.”

Ama bu tam olarak ne anlama geliyor? Uzmanlara gittik - ve bol bol örnek vermelerini istedik!

Güçlendirme Öğrenmesi Nedir?

Lim'un dediği gibi, pekiştirici öğrenme deneme yanılma yoluyla öğrenme pratiğidir - pratiği yapmak Redmond, WA Data Science Dojo'da çalışan bir veri bilimci adayı olan Hunaid Hameed'e göre, “Bu disiplinde, bir model, doğru bir tahmin için artan bir şekilde ödüllendirilerek ve yanlış tahminler için cezalandırılarak, konuşlandırmayı öğreniyor”. (Takviye Öğrenimi Öğrenme, Pazarlamaya Güzel Bir Dinamik Döngü Verebilir.)

“Takviye öğrenme, AI oyunlarında sıkça görülür ve zaman içinde oyun oynamayı iyileştirir.”

Güçlendirme öğrenmedeki üç temel bileşen bir etmen, eylem ve ödül. Mountain View, CA’daki Fiddler Labs veri bilim başkanı Dr. Ankur Taly’e göre “Güçlendirme eğitimi belirli bir metodolojiye bağlı kalmakta ve en iyi sonucu elde etmek için en iyi araçları belirlemektedir”. “Karakterin (aracının) en yüksek puanı (ödül) elde etmek için bir dizi denemede (eylemlerde) yer aldığı bir video oyununu oynamamızın yapısına çok benzer.”

Ancak, özerk bir kendi kendine eğitim sistemidir. Taly, video oyunu örneğini kullanarak, pozitif ödüllerin puan veya puanları yükseltmekten kaynaklanabileceğini ve negatif ödüllerin engellere çarpmaktan veya olumsuz hamleler yapmaktan kaynaklanabileceğini söylüyor.

CA merkezli Skymind, San Francisco CEO'su Chris Nicholson, algoritmaların deneme yanılma yoluyla nasıl öğrendiklerine dair bir örnek oluşturuyor. ”İlk kez Super Mario Brothers oynamayı ve nasıl kazanacağınızı öğrenmeye çalışın: mekanı keşfedin, Eğilirsin, zıplarsın, para basarsın, bir kaplumbağanın üstüne çıkarsın, sonra ne olacağını görürsün. ”

Hata Yok, Stres Yok - Hayatınızı Yok Etmeden Hayat Değiştiren Yazılım Yaratma Adım Adım Kılavuzunuz

Hiç kimse yazılım kalitesini önemsemediğinde programlama becerilerinizi geliştiremezsiniz.

İyi eylemleri ve kötü eylemleri öğrenerek, oyun size nasıl davranacağınızı öğretir. “Güçlendirme eğitimi her durumda bunu yapıyor: video oyunları, masa oyunları, gerçek dünya kullanım durumlarının simülasyonları.” Aslında Nicholson, kuruluşunun şirketlerin karmaşık bir durumdan en iyi karar yolunu bulmalarına yardımcı olmak için güçlendirme öğrenimi ve simülasyonları kullandığını söylüyor.

Güçlendirme öğreniminde, bir ajan daha büyük bir hedefe ulaşmak için birkaç küçük karar verir. Bir başka örnek ise bir robotu yürümesini öğretmektir. “Bir ayağını kaldırmak, dizini bükmek, yere koymak gibi sert kodlama yönleri yerine, bir takviye öğrenme yaklaşımı, farklı hareket dizileriyle robot deneyine sahip olabilir ve hangi kombinasyonların bunu gerçekleştirmede en başarılı olduğunu bulabilir ileriye doğru gidin, ”diyor MD MD College Park'taki Immuta'da veri bilimcisi ve analitik aracı uzmanı Stephen Bailey.

Video oyunları ve robotların yanı sıra, takviye öğrenmenin nasıl çalıştığını açıklamaya yardımcı olabilecek başka örnekler de var. Washington DC'deki Babel Street'in baş veri bilimcisi olan Brandon Haynie, bisiklet sürmeyi öğrenen bir insanla karşılaştırıyor. “Sabit duruyorsanız ve ayaklarınızı pedal çevirmeden kaldırıyorsanız, düşme - veya ceza - yakındır”

Ancak, pedal çevirmeye başlarsanız, o zaman bisiklete kalırsınız - ödül - ve bir sonraki duruma geçersiniz.

Haynie, “Güçlendirme öğreniminin, finansal kararlar, kimya, üretim ve elbette robotik de dahil olmak üzere çeşitli sektörleri kapsayan uygulamaları var” diyor.

Derin Takviye Öğrenmesi Nedir?

Ancak, kararların güçlendirilmiş öğrenme yaklaşımı için çok karmaşık hale gelmesi mümkündür. Haynie, algoritmanın tüm ülkelerden öğrenmesinin ve ödül yolunu belirlemesinin çok zor olabileceğini söylüyor. “Derin takviye öğreniminin yardımcı olabileceği yer burasıdır:“ derin ”kısım, her çözümü haritalamak yerine, karar sürecinde daha kolay yönetilebilir bir çözüm alanı oluşturmak için durumları tahmin etmek için sinir ağının uygulanmasını ifade eder.

Bu yeni bir kavram değil. Haynie, 1970'lerden beri var olduğunu söyledi. “Ancak ucuz ve güçlü bilgi işlemlerin ortaya çıkmasıyla, sinir ağlarının ek avantajları artık bir çözümün karmaşıklığını azaltmak için alanlarla mücadeleye yardımcı olabilir” diye açıklıyor. (Yapay zeka ve sinir ağları arasındaki fark nedir?)

Peki bu nasıl çalışıyor? AI takım lideri Peter MacKenzie'ye göre, Amerika Teradata'daki Amerikalılar, tablolarda depolamak için çok fazla bilgi ve tablo yöntemleri, aracının her durumu ve eylem kombinasyonunu ziyaret etmesini gerektiriyor.

Bununla birlikte, derin pekiştirme öğrenme, işlev değerleriyle durum değerlerini tahmin etme amaçlı tablo yöntemlerinin yerini almaktadır. “İşlev yaklaşımı yalnızca tüm durum ve değer çiftlerini bir tabloda saklama gereksinimini ortadan kaldırmaz, aynı zamanda benzer durumların değerlerini kullanarak aracının daha önce hiç görmediği ya da kısmi bilgiye sahip olduğu durumları genelleştirmesini sağlar” MacKenzie diyor.

“Derin güçlendirme öğrenmedeki heyecan verici gelişmelerin çoğu, sinir ağlarının çok büyük devlet alanları arasında genelleme yeteneği nedeniyle ortaya çıkmıştır”. MacKenzie, derin güçlendirme öğrenmesinin bazı en iyi insan rakiplerini yenen programlarda kullanıldığını belirtti. Satranç ve Git gibi oyunlarda ve robotikteki ilerlemelerin çoğundan da sorumludur. (AI, Makine Öğrenimi ve Robotbilimde 7 Kadın Liderini Okuyun.)

Bailey, “Bu yılın başlarında, AlphaStar adlı bir AI ajanı dünyanın en iyi StarCraft II oyuncusunu yendi -” diyor ve ekliyor, çünkü bu özellikle ilginç çünkü Chess and Go gibi oyunların aksine, StarCraft'taki oyuncular rakiplerinin ne yaptığını bilmiyor. ” Bunun yerine, başlangıçta bir strateji yapmak zorunda olduklarını ve ardından rakibinin ne planladığını bulduklarında uyum sağlamaları gerektiğini söyledi.

Ama bu nasıl mümkün olabilir? Eğer bir model beş katmandan fazla bir sinir ağına sahipse, Hameed, yüksek boyutlu verilere hitap etme kabiliyetine sahip olduğunu söylüyor. “Bundan dolayı model, bir insan mühendisinin küveti olmadan kalıpları kendi başına tanımlamayı öğrenebilir ve öğrenmek için modele girmesi gereken değişkenleri seçebilir” diye açıklıyor.

Açık uçlu senaryolarda, derin güçlendirme öğreniminin güzelliğini gerçekten görebilirsiniz. Taly, bir restoranda bir masada rezervasyon yapma veya bir öğeye sipariş verme örneğini kullanır - aracının diğer taraftan gelen herhangi bir girdiye yanıt vermesi gereken durumlar.

“Derin pekiştirici öğrenme, doğrudan bir konuşma aracısını doğrudan veya ses sinyalinden diğer uçtan eğitmek için kullanılabilir” diyor. “Bir ses sinyali kullanırken, aracı seste duraklamalar, tonlama, vb. Gibi ince ipuçları almayı da öğrenebilir - bu derin takviye öğrenmenin gücüdür.”

Derin takviye öğreniminde yeni uygulamalar ortaya çıkmaya devam ediyor. MacKenzie, bir müşteriyle etkileşime geçmek için bir sonraki en iyi eylemin belirlenmesinde, “devlet ve eylemler, her biri kişiselleştirilmiş - ifadeler, resimler, renkler, yazı tipleri ile birlikte, tüm farklı kanallardaki tüm ürün, teklif ve mesajlaşma kombinasyonlarını içerebilir” diyor.

Diğer bir örnek, tedarik zinciri optimizasyonudur, örneğin ABD’de bozulabilir ürünler sunmak “Olası durumlar arasında, tüm farklı ulaşım türlerinin mevcut konumu, tüm fabrikalardaki, depolardaki ve perakende satış noktalarındaki envanter ve tüm talep tahminleri yer alıyor. mağazalar, ”diyor MacKenzie.

“Devleti ve eylem alanını temsil etmek için derin öğrenmeyi kullanmak, aracının daha düşük bir maliyetle daha zamanında sevkiyatla sonuçlanan daha iyi lojistik kararlar almasını sağlar.”