Ölü İnsanlarımı Duyuyorum? Doğal Dil Teknolojisi Geçmiş ve Şimdiki Sesleri Canlandırıyor

İçerik

NLP’de Büyük Değişiklikler
Vivo'da "Sesli" Yaptıkları Heyecan Verici
Pazarlamada Yapay Ses
Sesiniz Yaşıyor
2525 Yılında

Paket servisi:

Konserve sesleri unut; gerçek dilleri çoğaltmak doğal dil işlemede yeni bir amaçtır.

Bugünlerde çoğu bilgisayar sesi pasif. Telefonunuzdaki "droid" i duyduğunuzda fatura ödemesi yaparken veya istediğiniz bölümü sorduğunuzda büyük olasılıkla siborglar ve robotlar hakkında fazla bilgi alamazsınız. Ama aniden Kurt Cobain'in kart bilgileri için sana prodüksiyon yaptığını duyduysan? Yoksa John F. Kennedy size erken oylamanın harikalarını mı anlatıyor? Ya da Elvis ismini alıp adınızı alıp "bir iri, yanan aşk bir ihanet?"

Bunların hepsi ... garip olurdu, ama daha da etkileyici olan, teknolojinin temelde zaten burada olmasıdır. Sadece bir on yıl kadar önce, bilgisayarların bile konuşma yeteneği bile bizi şaşırttı. Şimdi, tıpkı tanıdıklarımız gibi ses çıkaran, bilgisayardan yayılan, özgürce değişen sesler ile döşenmek üzereyiz.

NLP’de Büyük Değişiklikler

Doğal dil işleme (NLP) alanına dikkat ediyorsanız, küresel konumlandırma sistemlerimizde (GPS) ve otomatik işletmede artık duyduğumuz konserve sanal asistan seslerinin ötesine geçen son gelişmelerden haberdar olmuş olabilirsiniz. Telefon hatları

NLP'nin başlangıcı, insan konuşmasının genel mekaniği hakkında çok fazla araştırma yapılması gerekiyordu. Araştırmacılar ve mühendisler, bireysel fonetiği tanımlamalı, onları cümleleri ve cümleleri üretmek için daha büyük algoritmalara katlamalı ve ardından gerçek gibi görünen bir şey üretmek için hepsini meta seviyesinde yönetmeye çalışmalıydı. Zamanla, NLP liderleri bu konuda uzmanlaştı ve insanların ne dediğini anlamak için gelişmiş algoritmalar oluşturmaya başladı. Bu ikisini bir araya getiren şirketler, günümüzün sanal asistanlarının ve tamamen dijital fatura ödeme memurlarının sürücülerini gündeme getirdiler - sinir bozucu olsalar da - içine giren işleri düşünmeyi bıraktığınızda hala şaşırtıcılar.

Şimdi, bazı şirketler daha belirgin bir kişiselleştirilmiş sonuç ortaya koymak için genel sanal sesin ötesine geçiyorlar. Bu, belirli bir kişinin sözlüğünden geçmeyi ve çok miktarda benzersiz sesli video toplamayı, ardından bu arşivi fonetik, vurgu, kadans ve dilbilimcilerin genellikle geniş "prosody" başlığı altında gruplandırdığı diğer tüm küçük ipuçlarına yönelik karmaşık ritimlere uygulamasını gerektirir.

Ortaya çıkan, dinleyicilerin belirli bir kişinin "sahip olduğu" olduğunu düşündüğü bir ses - ya tanıdıkları ve konuştukları biri ya da kişilerin şöhretleri sonucu tanıdıkları biri.

Elvis'ten Martin Luther King'e, herkesin sesi bu şekilde "klonlanabilir" - konuşmaları hakkında önceden kaydedilmiş bir kayıt olması şartıyla. Bireysel küçük seslere daha detaylı analiz ve manipülasyon uygulayarak, şirketler birisinin sesine gerçek bir şey gibi görünen sanal bir karbon kopyasını çıkarabilirler.

Vivo'da "Sesli" Yaptıkları Heyecan Verici

Örneğin Vivo, sesli kitaplardan etkileşimli sesli yanıtlara (IVR) kadar her türlü kampanya için yapay insan sesi kullanımında devrim yaratan bir şirkettir. Vivo'da araştırma ve üretim ekipleri teorik olarak Ol Blue Eyes'ın kendisi gibi ölen ünlülerin seslerini özel olarak çoğaltabilecek süreçler üzerinde çalışıyor.

Vivo CEO'su Gershon Silbert, “Frank Sinatra’nın sesini klonlamak için kaydedilen mirasını gözden geçireceğiz” diyor.

Şu anda Vivo, hala bu tür bir IT öncüsü projesi için örnek teşkil eden NPR muhabiri Neal Conan gibi hala bizimle olanların seslerini arşivlemeye çalışıyor. Bir tanıtım videosu, Vivo çalışanlarına Conan'dan sağlanan ses girişini kullanarak titizlikle fonetik kod modülleri yarattığını göstermektedir. Daha sonra, dramatik biçimde insani ve kişiselleştirilmiş bir sonuç uyandıran konuşma (TTS) araçları için modeller oluştururlar.

Vivo'da strateji ve iş geliştirme başkan yardımcısı Ben Feibleman'a göre, bilgisayar bireysel bir insan sesi için prosodik bir modele uymak için bir fonem düzeyinde (konuşmanın en küçük benzersiz bölümlerini kullanarak) çalışıyor.

"Sesin nasıl konuşacağını biliyor" diyor Feibleman, "birim seçimi" kullanarak bilgisayarın, "Cuma" kelimesinin gelişmesine yardımcı olan beş bileşen vermesi gibi, kısa bir kelime bir araya getirmek için birkaç parça seçtiğini ekledi belirli bir vurgu ve ton sonucu.

Pazarlamada Yapay Ses

Peki, bu pazarlamada nasıl çalışır? Vivo’nın ürünleri, sesli izleyiciler gibi hedef kitlelere ulaşabilecek ürünler oluşturmakta çok faydalı olabilir. Örneğin, bir Elvis sesi, eğlence ile ilgili ürünler satmak için kullanılsaydı, bugünün jenerik, deadpan, otomatik seslerden biriyle karşılaştırılır mı?

Ya da politikaya ne dersiniz? Feibleman, daha etkili mesajlaşmaya ihtiyaç duyan şirketler veya diğer taraflar için pazarlamayı geliştirmek amacıyla bu gibi projeleri kullanmak için çeşitli fikirler üzerinde çalışıyor.

"Cumhurbaşkanı adaylığı yapan herhangi bir politikacı tanıyorsanız, bu 10 milyon swing devleti seçmeninin bir adaydan kişisel bir görüşme yapması, destekleri için teşekkür etmeleri, oy kullanmaları, hava durumu ve kesilmeleri için nereye gitmeleri gerektiğini söylemeleri seçimden önceki gece, "dedi Feibleman.

Sesiniz Yaşıyor

Bu teknolojinin hepsine bariz bir uygulama daha var. Vivo gibi doğal dil şirketleri, bir müşterinin tüm ses verilerini o kişinin "sonsuza dek konuşmasına" izin verecek bir ürüne yükleyecek kişisel bir hizmet oluşturabilir.

Pratik uygulama muhtemelen konuşulan sesleri nasıl duyduğumuza ve içselleştirdiğimize dair bir takım soruları ortaya çıkarır. Örneğin, bir ses akışının tıpkı biri gibi ses çıkarması için ne gerekir? Belirli bir sesi tanımak için bir kişiyi ne kadar iyi tanımalıyız? Ve ilginç bir şekilde, doğal bir dil servisi zorlayıcı bir taklit değil, kaba bir karikatür ürettiğinde ne olur?

Feibleman, sonuçların değerlendirilmesinin çoğunlukla konunun değerlendirilmesine bağlı olduğunu söylüyor. Örneğin, çocukların genellikle bir hikayeyi dinlerken kimin konuştuğu hakkında soru sormadıklarını söylüyor. Sadece daha fazlasını istiyorlar. Ancak, çoğu yetişkin, pasif bir yayın veya telefon gibi belirli bir senaryoda verilen, onlarla kimin konuştuğunu düşünmeyebilir. Ayrıca, bir bilgisayarın telefonla kandırılması daha kolaydır, çünkü susturulmuş ses bilgisayar sonuçları ile insan sesi arasındaki aksaklıkları veya diğer tutarsızlıkları gizleyebilir.

Feibleman, “Sesin gerçekliğini sorgulamak sizin için gerçekleşmiyor” diyor.

2525 Yılında

Şirketler ürün ve hizmet geliştirme ve bu soruları yanıtlamada ilerledikçe, "canlı konuşma" teknolojileri bizi teknolojinin ve klasik olarak yapay zeka (AI) olarak adlandırılan insan zihninin yakınsamasına doğru ilerletebilir.

Eğer bilgisayarlar bizim gibi konuşabiliyorlarsa, diğer kullanıcıları, bizim gibi düşündüklerini düşünerek, daha büyük bir tekillik ilkesini besleyerek, yazarların evrimleştiği 1950'lerin çağındaki bir teknoloji öncüsü olan John von Neumann'ın sözlüğümüze aktardığı gibi kandırabilirler. ve Ray Kurzweil gibi düşünürler. Kurzweils 2005, "Tekillik Yakındır" adlı kitap, bazılarını heyecanlandırıyor ve başkalarını korkutuyor. Kurzweil’in 2045’e gelindiğinde, bir fenomen olarak “istihbarat” ın insan beyninden büyük oranda tıkanacağını ve teknolojiye geçerek, makinelerle insan ustaları arasındaki çizgileri bulanıklaştıracağını tahmin ediyor.

Zager & Evans'ın “In the Year 2525” sözlerinde ölümsüzleştirildi (hiç kimse bu adamlar gibi ürkütücü bilim adamlarını korkutmaz)…

4545 yılında
Dişlerine ihtiyacın olmayacak, ihtiyacın olmayacak
gözlerin
Çiğnemek için bir şey bulamazsın
Kimse sana bakmayacak

5555 yılında
Kolların yanlarından kopuyor
Bacaklarının yapacak hiçbir şey yok
Bazı makineler bunu senin için yapıyor

Bilgisayar sesleri bu yönde bir adım mıdır? İnsan vücudunun bazı işlevlerini (veya daha genel olarak bunları simüle etmek için) bazılarını dış kaynaklardan tedarik etmenin yeni bir yolu olarak, bu tür bir teknik gelişme, ufukta tekil bir geleceğe baktığımızda en büyük - ve muhtemelen yeterince bildirilmemiş - gelişmelerden biridir. . (Will Computers’taki “tekillik” hakkında İnsan Aklını Taklit Edebilir Miyim?)