Aşağıdaki tabloda Carnegie Mellon Üniversitesi tarafından hazırlanmış temel metin ve veri madenciliği kavramları ve karşılıkları listelenmektedir [1]: 

Tablo 1. Temel metin ve veri madenciliği kavramları ve Türkçe tanımları

Programlama arayüzüKullanıcıların makine tarafından okunabilir bir formatta çok miktarda bilgiye (metin, veri, nesne) erişip elde edebildiği teknik pencere, programlama dili arayüzü
Derlem (corpus)Web sayfaları ve dergi makaleleri gibi bir belge koleksiyonu
'Crawling'Bir web sitesindeki bağlantıları otomatik olarak bulan ve onlardan gelen bilgilerin temizlenebilmesi ve makine tarafından okunabilir hale getirilmesi için kazıyan (scraping) bir yöntem
Doküman tipi tanımlamaYapıyı tanımlamak ve bir belgenin bilgisayarlar tarafından nasıl anlaşılması gerektiğini göstermek için metni etiketlemek üzere HTML veya SGML gibi bir kodlama dili aracılığıyla oluşturulan işaretleme
Varlık (entity)Gerçek dünyadaki bir şey (örneğin bir isim)
Genişletilebilir işaretleme dili (extensible mark-up language)Web ve diğer dijital medya yazarlığı ve tasarımını basitleştirmek ve bunlara esneklik sağlamak için tasarlanmış, belgeleri işaretlemek için kullanılan bir web standardı. HTML'den farklı olarak sabit bir biçim dili değildir
Hipermetin işaretleme dili (HTML)Web tarayıcıları tarafından yorumlanan ve web sayfaları oluşturmak için kullanılan metin tabanlı bir kodlama dili
Bilgi çıkarımı (information extraction)Belirli verileri yapılandırılmamış metinlerden izole etme işlemi
'Lemma'/'lexim''Lemma' bir kelimedir. 'Lexeme' ise birden fazla sözcükle sunulabilen anlam birimidir. Örneğin, İngilizcede read ve reads aynı 'lexeme' birimidir ancak farklı biçimleri ('lemma') vardır. 
Makine öğrenmesiVerilerdeki kalıpları otomatik olarak tanımlayan (öğrenen) matematiksel veya istatistiksel bir algoritma
Doğal dil işlemeMetinlerin otomatik analizini kolaylaştıran yazılım veya hizmetler
OntolojiBelirli bir alanın, kendisine ait olan varlıklar ve ilişkileriyle organizasyonu
Ontoloji web dili (ontology web language)Bilgisayarların işleyebileceği şekilde varlıklar arasındaki ilişkilerin temsili
Ayrıştırma (parsing)(Dilsel) ayrıştırma, metnin sözdizimsel analizi ve bir cümleyi bileşen parçalarına ayırma süreci
İlişki çıkarımı (relationship extraction)İki veya daha fazla varlık arasında otomatik olarak "anlamsal ilişkiler" bulma süreci
Kazıma (scraping)Bilgileri tanımlama, kopyalama ve daha sonra temizlenebilecek veya makinece okunabilecek hale getirilebilecek dosyalara yapıştırma işlemi
Anlamsal ilişki (semantic relationship)Bir bilgisayar tarafından anlaşılabilecek şekilde ifade edilen iki veya daha fazla varlık arasındaki dilsel ilişki
Duygu analizi (sentiment analysis)Anlam taşıyan kelimelerin veya cümlelerin çıkarımı ve analizi
Standart genişletilmiş işaretleme dili (SGML)Tüm kodlama dillerinin (XML, HTML gibi) en kapsamlısı
Dur listesi (stop list)Metnin işlenmesini yavaşlattıkları veya yanlış sonuçlar ürettikleri için bir bilgisayar aramasından, uyumluluğundan veya dizinden otomatik olarak çıkarılan bir dizi kelime
Taksonomi (taxonomy)İlişkileri ifade eden, bilgileri hiyerarşik veya doğrusal bir şekilde organize eden özel kelime dağarcığı (vocabulary)
'Token'Bir sözcük türü. Dilbilimdeki "konuşmanın bir parçası (part of speech)"e benzer. Sözcük yoğunluğunu ölçmek için kullanılır. Yazım açısından sözcük yoğunluğu bir metnin ne kadar bilgilendirici olduğunu ölçer. 'Tokenization' kelime türlerini atama işlemidir.
'Treebank'Metin ve veri madenciliği modellerini eğitmek için kullanılan, sözdizimsel olarak ayrıştırılmış belgelerin bir bütünü

Kaynakça

[1] Carnegie Mellon University Libraries. Text & data mining: Terms & definitions. Erişim adresi: https://guides.library.cmu.edu/TDM/Overview


Last modified: Sunday, 23 October 2022, 7:17 PM