Sayfalar

31 Temmuz 2014 Perşembe

bilgisayar ve dil


Bilgisayarlı Dilbilime Genel Bakış

 

Bilgisayarlı Dilbilim (Computational Linguistics) alanında çalışan araştırmacılar Fortran, Snobol, C++ ya da Java gibi bilgisayar dillerinden çok Türkçe, Rusça gibi doğal dillerle ilgilenmektedirler. Bilgisayarlı dilbilimin iki amacı vardır:

 

(i) Teknolojik (uygulayımbilimsel) amaç. Doğal dilleri çözümleyebilme ve işlemleyebilme amaçlarına yönelik kullanılabilecek bilgisayarların ortaya çıkmasını sağlamak.

 

(ii) Psikolojik (ruhbilimsel) amaç. Bilgisayarlarla benzerlik kurarak, insanların doğal dili nasıl işlemlediklerini anlamak.

 

 

 

Teknolojik bakış açısından, bilgisayar uygulamalarında doğal dil için üç kullanım vardır.

 

(i) Doğal dil ara yüzlerinden yazılıma. Örneğin, kullanıcıya ticari havayolu uçuşu hakkında mikrofonla bilgi sorabilmeye izin veren otomatik bir seyahat acentesi türüne ilişkin sistemler yapılabilir.

 

(ii) Yazılı metinden dosya bulup getirme ve bilgi çıkarma. Örneğin, bir bilgisayar sistemi, gazetedeki makaleleri ya da bazı metin türlerini belirli türden olaylar hakkında bilgi toplamak ve veritabanına kim, nerede ve ne zaman sorularına yönelik bilgiler girmek için tarayabilir.

 

(iii) Makineli çeviri (Machine translation). Bilgisayar sistemleri, günümüzde, kabaca bir dilden diğer bir dile çeviri gerçekleştirebilmektedir.

 

Bilgisayarlı dilbilim araştırmacılarının benimsedikleri psikolojik bakış açısı varsayımında, bazı soyut düzeyler açısından beyin biyolojik bir bilgisayar türü olarak değerlendirilmektedir. İnsanların dili üretmelerine benzer işleyişe sahip bir bilgisayar modellenebilir.

 

 

 

Bilgisayarlı Dilbilim İçerisindeki Sorunlar

 

Hem teknolojik hem de psikolojik bakış açısında, bilgisayarlı dilbilim araştırmacıları, kuralların ve işlemlerin bir dizisini geliştirmeye çalışmaktadırlar. Örneğin, tümcelerin sözdizimsel yapısını betimlemek veya adılların gönderimlerini çözmek gibi, kuralların ve işlemlerin kümesi ortaya konmaya çalışılmaktadır.

 

İşlemlenen doğal dillerdeki en önemli problemlerden biri belirsizlik (ambiguity) sorunudur. Belirsizlik kavramını somutlamak için aşağıdaki örneği inceleyelim,

 

“Adamı parkta dürbünle gördüm”

 

Yukarıdaki tümcenin iki anlamı vardır:

 

1. Elinde dürbün olan adamı parkta gördüm

 

2. Dürbün kullanarak parktaki adamı gördüm

 

Belirsiz tümceler sözlü söylemlerde ve yazılı metinlerde sıkça rastlanılan yapılardır. Ne var ki birçok belirsiz tümce dikkatimizden kaçmaktadır. Bunun nedeni, dünya bilgisiyle (knowledge of the world) ve bağlamla belirsiz tümcelerin anlamlarını çözebilmekte oluşumuzdur. Ama, bir bilgisayar sistemi, bizim gibi bir dünya bilgisine sahip değildir ve onun bağlamdan belirsiz tümcenin anlamını belirleyecek bir işi gerçekleştirmesi zordur.

 

 

 

Belirsizliğe Yaklaşımlar

 

Belirsizlik problemini çözmek için iki olası çözüm üzerinde durulmaktadır: bilgi-temelli (knowledge-based) ve istatiksel (statistical).

 

Bilgi-temelli yaklaşımda, sistem geliştiriciler dünyayla ilgili pek çok bilgi yüklemeleri gerekmektedir. Ayrıca, sistem geliştiricilerin metindeki bağlamı çözümleyecek işlemlemeler geliştirmeleri de gerekmektedir. Bu yaklaşımın avantajı insan dilinin işlemlenme sürecine oldukça benzemesi ve uzun soluklu olarak başarılı sonuçların alınma olasılığının yüksek olmasıdır. Bilgi-temelli yaklaşımın olumsuz sayılabilecek yönü ise, yeterli derecede geniş dünya bilgisi düzgülemesi için oldukça çaba harcanması gerektiği ve bilgiyi kullanmak için bilinen işlemlemelerin yetersiz kaldığı gerçeğidir.

 

İstatiksel yaklaşımda, açıklayıcı notlar konulmuş büyük ölçekli bir bütünceye ihtiyaç duyulmaktadır. Bu sistemin geliştiricileri, yazdıkları işlemlerde belirsizliğin büyük ölçüde çözümünü hesaplayabilmek için sözcükleri, sözcük türlerini ve belirlemeyi kolaylıştıracak diğer koşulları yüklemektedirler. Örneğin, birisi geliştirilen sistemde Ad-İlgeç-Sözcük gibi bir üçlemenin kullanımı ile ilgili bilgi toplamak isteyebilir. Bütünceden elde ettiği verilerden <dürbün, ile, gör-> üçlüsünün <dürbün, ile, adam> veya <adam, dürbün, ile> üçlüsünden daha sık kullanıldığını belirleyebilecektir. Bu yaklaşımın avantajı, açıklayıcı notlar konulmuş bir bütünceye erişebilmek, kendi kendine işleyebilen bir sistemle etkili sonuçlar alabilmektir. İstatiksel yaklaşımın olumsuz sayılabilecek yönü ise, açıklayıcı notlar konulmuş bir bütüncenin oluşturulmasının oldukça masraflı olmasıdır. Üstelik, istatiksel yaklaşımla oluşturulmuş bir sistemde toplanan veriler, derin bağlamsal faktörlere yönelik farkındalık gerektiren yerlerde yanlış çözümlemelerin ortaya çıktığı sonuçları içerebilir.

Hiç yorum yok:

Yorum Gönder