Derin Öğrenme de Resim Alt Yazısı

Derin Öğrenme de Resim Alt Yazısı

Resim Alt Yazısı Nedir?

 

Resim Altyazısı , bir resmin metinsel açıklamasını oluşturma sürecidir. Hem kullanır Doğal Dil İşleme ve Bilgisayar Görüşü altyazı oluşturmalarına.

 

Ağ Topolojisi:

 

 

Encoder:

 

Konvolüstal Sinir Ağı (CNN) bir kodlayıcı olarak düşünülebilir. Giriş görüntüsü, özellikleri ayıklamak için CNN'ye verilir. CNN'nin son gizli durumu Decoder'a bağlanır.

 

Şifre Çözücü:

 

Dekoder, sözcük seviyesine kadar dil modellemesi yapan Tekrarlayan Birural Ağ'dır (RNN). İlk zaman adımı kodlanmış çıktıyı kodlayıcıdan ve ayrıca <START> vektörünü alır.

 

Eğitim:

 

CNN'nin (Encoder) son gizli durumundan çıkan çıktı, kod çözücünün ilk zaman aşamasına verilir. Bu set x1 = <START> vektör ve istenen etiket y1 = sırasında ilk kelimeyi . Benzer şekilde, ilk kelimenin x2 = kelime vektörünü ayarladık ve ağın ikinci kelimeyi tahmin etmesini bekledik . Son olarak, son adımda, xT = son kelime , hedef etiket yT = <END> jetonu.

Eğitim sırasında, dekoder bir hata yapsa bile, her zaman adımında dekodere doğru giriş verilir.

 

Test Yapmak:

 

Resim gösterimi kod çözücünün ilk aşama sağlanır. X1 = <START> vektörünü ayarlayın ve ilk kelime y1 üzerinde dağılımı hesaplayın . Dağıtımdan bir kelimeyi örnek alıyoruz (veya argmax'ı seçiyoruz), gömme vektörünü x2 olarak ayarlıyoruz ve <END> jetonu oluşturuluncaya kadar bu işlemi tekrarlıyoruz .

Test sırasında, dekoderin t zamanında çıkışı geri beslenir ve t + 1 zamanında dekoderin girişi olur.

 

Veri Setleri:

 

 

  • Flickr 8K . Flickr.com adresinden çekilen 8 bin fotoğraftan oluşan bir koleksiyon.

 

  • Flickr 30K . Flickr.com adresinden çekilen 30 bin fotoğraftan oluşan bir koleksiyon.

 

 

 

Yazı için Pranoy Radhakrishnan  teşekkür ederiz.