Metin ve veri madenciliği yapılandırılmamış metinlerden önceden bilinmeyen bilgileri keşfetme süreci olarak tanımlanabilir. Bu süreç ilgili dokümanlara erişimi tanımlayan bilgi erişim, bu dokümanlardan ilgili bilgilerin çıkarılmasını tanımlayan bilgi çıkarımı ve çıkarılan bilgi parçaları arasında yeni ilişkilerin keşfedilmesi olarak tanımlanan veri madenciliğini kapsar [1].

Birleşik Krallık Hükümeti metin ve veri madenciliğini "makine tarafından okunan materyallerden bilgi türetme süreci" olarak tanımlamıştır [2]. Bu sürecin en önemli unsurlarının büyük yoğunluklu materyallerden veri çıkarımı ve örüntü keşfi olduğu vurgulanmıştır. Metin ve veri madenciliği bilimsel araştırmalar için büyük fırsatlar sunar çünkü büyük veri setleri üzerinde hesaplamalı analizler gerçekleştirerek yeni keşifler yapmak, daha doğru/verimli vir araştırma süreci geliştirmek ve araştırmaları iyileştirmek mümkündür [3].

Metin ve veri madenciliği günümüzde bilgisayar bilimleri, kütüphanecilik ve bilgibilim, sosyal bilimler ve ilgili pek çok alanda en sık kullanılan analiz yöntemlerinden biridir. Günümüze kadar gelen süreçte metin ve veri madenciliği süreçlerinin evrimi Şekil 1'de gösterildiği gibidir. 

Metin ve veri madenciliği tarihçesi

Şekil 1. Metin ve veri madenciliği çalışmalarının tarihsel gelişimi [1]

1940'larda hesaplamalı dilbilim ve içerik analizi çalışmalarıyla başlayan metin ve veri madenciliği günümüzde büyük verinin yaygınlaşması ve işlenebilmesi ile pek çok alan için vazgeçilmez hale gelmiştir. Metin ve veri madenciliği sayesinde: 

  • Araştırmacıların verimliliğinin arttığı, 
  • Gizli bilgilerin kilidinin açıldığı ve bu sayede yeni bilgilerin elde edildiği,
  • Yeni ufukların keşfedildiği,
  • Araştırmaların iyileştirildiği ve kanıt tabanı sağlandığı,
  • Araştırma süreçlerinin ve kalitesinin iyileştirildiği iddia edilmektedir [3].

Açık bilimin geleceği için metin ve veri madenciliği

Yapılandırılmış verilerden bilgi keşfetme ve çıkarma işlemi olarak tanımlanan veri madenciliği ve yapılandırılmamış metinlerden bilgi keşfetme ve çıkarma esasına dayanan metin madenciliğinin açık bilimin geleceğini oluşturacağı düşünülmektedir. Metin ve veri madenciliği terimi son yıllarda dergi makaleleri, kitaplar, kitap bölümleri veya konferans bildirileri gibi bilimsel içerikte yapılacak madenciliği tanımlamak için de kullanılmaktadır. Metin ve veri madenciliğinin geleceği nasıl şekillendirebileceği ile ilgili bir video aşağıda sunulmaktadır [2]. 

Vision on Open Science from DTL on Vimeo.

Kaynakça

[1] Anandarajan, M., Hill, C., Nolan, T. (2019). Introduction to Text Analytics. Practical Text Analytics. Advances in Analytics and Data Science içinde (ss. 1-11). Springer, Cham. https://doi.org/10.1007/978-3-319-95663-3_1

[2] University of Cambridge LibGuides. Text & Data Mining: What is TDM? Erişim adresi: https://libguides.cam.ac.uk/tdm/definitions 

[3] JISC. (2019). Gateway to text and data mining. Erişim adresi: https://www.jisc.ac.uk/rd/projects/gateway-to-text-and-data-mining

En son değiştirme: Pazar, 23 Ekim 2022, 3:38 PM