Amazon, Alexa İçin 4 Milyondan Fazla Kelime İçeren Bir Veri Seti Yayınlayacak
Amazon, önümüzdeki aylarda devasa bir veri setini yayınlayacak.
Amazon, doğal dil süreci kapsamında devasa miktarda bir veri örneğini yayınlamayı planlıyor. Seattle merkezli şirket, bugün yaptığı açıklamada Eylül 2019'da Topical Chat veri setini yayınlayacağını ve bu setin Alexa Prize Socialbot Grand Challenge'dan sağlandığını açıkladı.
Amazon'un söylediğine göre, Topical Chat 210 binden fazla telaffuzu ve 4 milyon 100 binden fazla kelimeyi barındırması, veri setini dünyanın en büyük halka açık sosyal diyalog ve bilgi seti yapıyor. Bu devasa veri setindeki bilgi ise oldukça geniş ölçekteki "yapısal olmayan" ve "gevşek yapısal olan" metin kaynaklarından alınıyor.
Amazon Kıdemli Bilim İnsanı Dilek Hakkani-Tur yayınladığı blog yazısında şunları söyledi:
"Bu derlemenin amacı bilgi temelli sinirsel cevap üretim sistemini araştırmada yeni bir basamağı aktif etmek, doğal diyalogların zorluğuyla mücadele etmektir. Bu, bilim insanlarının, insanların konular arasındaki geçiş yoluna, bilgi seçimi ve varsıllaştırmaya ve diyaloglardaki gerçekleri ve fikirleri bütünselleştirmesine odaklanmasına izin verecek.
Amazon, Alexa Ödüllerinde yarışan ekibin, veri setinin genişletilmiş versiyonuna erişiminin olacağını da söyledi. Ayrıca şirketin bugün yaptığı duyuru, yapay zeka modellerini farklı dillerdeki isimleri ayırt edebilecek şekilde eğitebilecek olan veri setinden altı ay sonra yayınlandı. Bu model İngilizce, Rusça, Japonca gibi farklı dillerdeki 400 bin ismi ayırt edebiliyor.