JISC tarafından metin ve veri madenciliği için dört aşamalı bir süreç tanımlanmıştır. Bu süreçler Şekil 1'de gösterilmektedir. 

Şekil 1. Metin ve veri madenciliği süreçleri

Şekil 1. Metin ve veri madenciliği süreçleri [1, 2], (JISC tarafından hazırlanan bu belge CC-BY lisansı ile korunmaktadır. Görsel tarafımızdan Türkçeye çevrilmiştir).

Cambridge Üniversitesi kütüphane rehberinde bu süreçler aşağıdaki gibi tanımlanmıştır [2]: 

  • Süreçte ilk olarak ilgili belgeler tanımlanır. 
  • Bu belgeler daha sonra yapılandırılmış verilerin çıkarılabilmesi için makine tarafından okunabilir biçime dönüştürülür (normalleştirilmiş belgeler).
  • Ardından çeşitli yöntemler uygulanarak yararlı bilgiler çıkarılır (türetilmiş veri kümesi).
  • Bu türetilmiş veri kümesi yeni bilgileri keşfetmek, hipotezleri test etmek ve yeni ilişkileri belirlemek için işleme tabi tutulur (çıkarılan ve şekfedilen bilgi).

Yapılandırılmamış metinlerden yapılandırılmış içeriklere

Manchester Üniversitesi tarafından İngiltere için kurulan National Centre for Text Mining metin madenciliğini yapılandırılmamış metinlerden/verilerden bilgi (knowledge) aktarımı süreci olarak tanımlar [3]. JISC ile paralel olarak NaCTeM de süreçleri Şekil 2'de gösterildiği gibi tanımlamıştır. 

Şekil 2. NaCTeM tarafından hazırlanan metin ve veri madenciliği süreç grafiği

Şekil 2. Metin ve veri madenciliği süreci [3] (Şekil tarafımızdan Türkçeye çevrilmiştir).

NaCTeM'e göre metin ve veri madenciliği süreci: 

  • İlgili kaynaklardan elde edilen metinler üzerinde bilgi erişim,
  • Varlıkları, gerçekleri veya ikisi arasındaki ilişkileri tanımlayabilmek ve elde edebilmek için bilgi çıkarımı,
  • ve birçok farklı metinden çıkarılan bilgi parçaları arasındaki ilişkileri bulmak için veri madenciliği alt süreçlerini içerir.  

Kaynakça

[1] JISC. (2012). The Value and Benefit of Text Mining to UK Further and Higher Education. Digital Infrastructure. Erişim adresi: http://bit.ly/jisc-textm Programme: Digital Infrastructure www.jisc.ac.uk/whatwedo/programmes/di_directions.aspx

[2] University of Cambridge LibGuides. Text & Data Mining: What is TDM? Erişim adresi: https://libguides.cam.ac.uk/tdm/definitions 

[3] NaCTeM. The National Centre for Text Mining: Providing text mining services to the UK. Erişim adresi: http://www.nactem.ac.uk/brochure/NaCTeM_Brochure.pdf

En son değiştirme: Pazar, 23 Ekim 2022, 5:16 PM