Bilgisayarlı Dilbilime Genel Bakış
Bilgisayarlı Dilbilim (Computational Linguistics) alanında
çalışan araştırmacılar Fortran, Snobol, C++ ya da Java gibi bilgisayar
dillerinden çok Türkçe, Rusça gibi doğal dillerle ilgilenmektedirler.
Bilgisayarlı dilbilimin iki amacı vardır:
(i) Teknolojik (uygulayımbilimsel) amaç. Doğal dilleri
çözümleyebilme ve işlemleyebilme amaçlarına yönelik kullanılabilecek
bilgisayarların ortaya çıkmasını sağlamak.
(ii) Psikolojik (ruhbilimsel) amaç. Bilgisayarlarla
benzerlik kurarak, insanların doğal dili nasıl işlemlediklerini anlamak.
Teknolojik bakış açısından, bilgisayar uygulamalarında doğal
dil için üç kullanım vardır.
(i) Doğal dil ara yüzlerinden yazılıma. Örneğin, kullanıcıya
ticari havayolu uçuşu hakkında mikrofonla bilgi sorabilmeye izin veren otomatik
bir seyahat acentesi türüne ilişkin sistemler yapılabilir.
(ii) Yazılı metinden dosya bulup getirme ve bilgi çıkarma.
Örneğin, bir bilgisayar sistemi, gazetedeki makaleleri ya da bazı metin
türlerini belirli türden olaylar hakkında bilgi toplamak ve veritabanına kim,
nerede ve ne zaman sorularına yönelik bilgiler girmek için tarayabilir.
(iii) Makineli çeviri (Machine translation). Bilgisayar
sistemleri, günümüzde, kabaca bir dilden diğer bir dile çeviri
gerçekleştirebilmektedir.
Bilgisayarlı dilbilim araştırmacılarının benimsedikleri
psikolojik bakış açısı varsayımında, bazı soyut düzeyler açısından beyin
biyolojik bir bilgisayar türü olarak değerlendirilmektedir. İnsanların dili
üretmelerine benzer işleyişe sahip bir bilgisayar modellenebilir.
Bilgisayarlı Dilbilim İçerisindeki Sorunlar
Hem teknolojik hem de psikolojik bakış açısında,
bilgisayarlı dilbilim araştırmacıları, kuralların ve işlemlerin bir dizisini
geliştirmeye çalışmaktadırlar. Örneğin, tümcelerin sözdizimsel yapısını
betimlemek veya adılların gönderimlerini çözmek gibi, kuralların ve işlemlerin
kümesi ortaya konmaya çalışılmaktadır.
İşlemlenen doğal dillerdeki en önemli problemlerden biri
belirsizlik (ambiguity) sorunudur. Belirsizlik kavramını somutlamak için
aşağıdaki örneği inceleyelim,
“Adamı parkta dürbünle gördüm”
Yukarıdaki tümcenin iki anlamı vardır:
1. Elinde dürbün olan adamı parkta gördüm
2. Dürbün kullanarak parktaki adamı gördüm
Belirsiz tümceler sözlü söylemlerde ve yazılı metinlerde
sıkça rastlanılan yapılardır. Ne var ki birçok belirsiz tümce dikkatimizden
kaçmaktadır. Bunun nedeni, dünya bilgisiyle (knowledge of the world) ve
bağlamla belirsiz tümcelerin anlamlarını çözebilmekte oluşumuzdur. Ama, bir
bilgisayar sistemi, bizim gibi bir dünya bilgisine sahip değildir ve onun
bağlamdan belirsiz tümcenin anlamını belirleyecek bir işi gerçekleştirmesi
zordur.
Belirsizliğe Yaklaşımlar
Belirsizlik problemini çözmek için iki olası çözüm üzerinde
durulmaktadır: bilgi-temelli (knowledge-based) ve istatiksel (statistical).
Bilgi-temelli yaklaşımda, sistem geliştiriciler dünyayla
ilgili pek çok bilgi yüklemeleri gerekmektedir. Ayrıca, sistem geliştiricilerin
metindeki bağlamı çözümleyecek işlemlemeler geliştirmeleri de gerekmektedir. Bu
yaklaşımın avantajı insan dilinin işlemlenme sürecine oldukça benzemesi ve uzun
soluklu olarak başarılı sonuçların alınma olasılığının yüksek olmasıdır.
Bilgi-temelli yaklaşımın olumsuz sayılabilecek yönü ise, yeterli derecede geniş
dünya bilgisi düzgülemesi için oldukça çaba harcanması gerektiği ve bilgiyi
kullanmak için bilinen işlemlemelerin yetersiz kaldığı gerçeğidir.
İstatiksel yaklaşımda, açıklayıcı notlar konulmuş büyük
ölçekli bir bütünceye ihtiyaç duyulmaktadır. Bu sistemin geliştiricileri,
yazdıkları işlemlerde belirsizliğin büyük ölçüde çözümünü hesaplayabilmek için
sözcükleri, sözcük türlerini ve belirlemeyi kolaylıştıracak diğer koşulları
yüklemektedirler. Örneğin, birisi geliştirilen sistemde Ad-İlgeç-Sözcük gibi
bir üçlemenin kullanımı ile ilgili bilgi toplamak isteyebilir. Bütünceden elde
ettiği verilerden <dürbün, ile, gör-> üçlüsünün <dürbün, ile, adam>
veya <adam, dürbün, ile> üçlüsünden daha sık kullanıldığını
belirleyebilecektir. Bu yaklaşımın avantajı, açıklayıcı notlar konulmuş bir
bütünceye erişebilmek, kendi kendine işleyebilen bir sistemle etkili sonuçlar
alabilmektir. İstatiksel yaklaşımın olumsuz sayılabilecek yönü ise, açıklayıcı
notlar konulmuş bir bütüncenin oluşturulmasının oldukça masraflı olmasıdır.
Üstelik, istatiksel yaklaşımla oluşturulmuş bir sistemde toplanan veriler,
derin bağlamsal faktörlere yönelik farkındalık gerektiren yerlerde yanlış
çözümlemelerin ortaya çıktığı sonuçları içerebilir.
Hiç yorum yok:
Yorum Gönder