Metin ve Veri Madenciliği: Metin ve veri madenciliğinde temel kavram ve tanımlar

Aşağıdaki tabloda Carnegie Mellon Üniversitesi tarafından hazırlanmış temel metin ve veri madenciliği kavramları ve karşılıkları listelenmektedir [1]:

Tablo 1. Temel metin ve veri madenciliği kavramları ve Türkçe tanımları


Programlama arayüzü	Kullanıcıların makine tarafından okunabilir bir formatta çok miktarda bilgiye (metin, veri, nesne) erişip elde edebildiği teknik pencere, programlama dili arayüzü
*Derlem (corpus)*	Web sayfaları ve dergi makaleleri gibi bir belge koleksiyonu
*'Crawling'*	Bir web sitesindeki bağlantıları otomatik olarak bulan ve onlardan gelen bilgilerin temizlenebilmesi ve makine tarafından okunabilir hale getirilmesi için kazıyan (scraping) bir yöntem
*Doküman tipi tanımlama*	Yapıyı tanımlamak ve bir belgenin bilgisayarlar tarafından nasıl anlaşılması gerektiğini göstermek için metni etiketlemek üzere HTML veya SGML gibi bir kodlama dili aracılığıyla oluşturulan işaretleme
*Varlık (entity)*	Gerçek dünyadaki bir şey (örneğin bir isim)
*Genişletilebilir işaretleme dili (extensible mark-up language)*	Web ve diğer dijital medya yazarlığı ve tasarımını basitleştirmek ve bunlara esneklik sağlamak için tasarlanmış, belgeleri işaretlemek için kullanılan bir web standardı. HTML'den farklı olarak sabit bir biçim dili değildir
*Hipermetin işaretleme dili (HTML)*	Web tarayıcıları tarafından yorumlanan ve web sayfaları oluşturmak için kullanılan metin tabanlı bir kodlama dili
*Bilgi çıkarımı (information extraction)*	Belirli verileri yapılandırılmamış metinlerden izole etme işlemi
*'Lemma'/'lexim'*	'Lemma' bir kelimedir. 'Lexeme' ise birden fazla sözcükle sunulabilen anlam birimidir. Örneğin, İngilizcede read ve reads aynı 'lexeme' birimidir ancak farklı biçimleri ('lemma') vardır.
*Makine öğrenmesi*	Verilerdeki kalıpları otomatik olarak tanımlayan (öğrenen) matematiksel veya istatistiksel bir algoritma
*Doğal dil işleme*	Metinlerin otomatik analizini kolaylaştıran yazılım veya hizmetler
*Ontoloji*	Belirli bir alanın, kendisine ait olan varlıklar ve ilişkileriyle organizasyonu
*Ontoloji web dili (ontology web language)*	Bilgisayarların işleyebileceği şekilde varlıklar arasındaki ilişkilerin temsili
*Ayrıştırma (parsing)*	(Dilsel) ayrıştırma, metnin sözdizimsel analizi ve bir cümleyi bileşen parçalarına ayırma süreci
*İlişki çıkarımı (relationship extraction)*	İki veya daha fazla varlık arasında otomatik olarak "anlamsal ilişkiler" bulma süreci
*Kazıma (scraping)*	Bilgileri tanımlama, kopyalama ve daha sonra temizlenebilecek veya makinece okunabilecek hale getirilebilecek dosyalara yapıştırma işlemi
*Anlamsal ilişki (semantic relationship)*	Bir bilgisayar tarafından anlaşılabilecek şekilde ifade edilen iki veya daha fazla varlık arasındaki dilsel ilişki
*Duygu analizi (sentiment analysis)*	Anlam taşıyan kelimelerin veya cümlelerin çıkarımı ve analizi
*Standart genişletilmiş işaretleme dili (SGML)*	Tüm kodlama dillerinin (XML, HTML gibi) en kapsamlısı
*Dur listesi (stop list)*	Metnin işlenmesini yavaşlattıkları veya yanlış sonuçlar ürettikleri için bir bilgisayar aramasından, uyumluluğundan veya dizinden otomatik olarak çıkarılan bir dizi kelime
*Taksonomi (taxonomy)*	İlişkileri ifade eden, bilgileri hiyerarşik veya doğrusal bir şekilde organize eden özel kelime dağarcığı (vocabulary)
*'Token'*	Bir sözcük türü. Dilbilimdeki "konuşmanın bir parçası (part of speech)"e benzer. Sözcük yoğunluğunu ölçmek için kullanılır. Yazım açısından sözcük yoğunluğu bir metnin ne kadar bilgilendirici olduğunu ölçer. 'Tokenization' kelime türlerini atama işlemidir.
*'Treebank'*	Metin ve veri madenciliği modellerini eğitmek için kullanılan, sözdizimsel olarak ayrıştırılmış belgelerin bir bütünü

Kaynakça

[1] Carnegie Mellon University Libraries. Text & data mining: Terms & definitions. Erişim adresi: https://guides.library.cmu.edu/TDM/Overview

Last modified: Sunday, 23 October 2022, 7:17 PM