Metin ve veri madenciliğinin maliyeti, faydaları, engelleri ve riskleri
Completion requirements
JISC raporunda metin ve veri madenciliğinin maliyet, yarar, fayda ve risklerine ilişkin temel unsurlar aşağıdaki gibi listelenmiştir. Metin JISC raporundan uyarlanmıştır [1]:
- Metin ve veri madenciliğinin potansiyel maliyet kanalları
- Erişim maliyetleri: Metin ve veri madenciliği yapılacak materyallerin analizde kullanılabilmesi için telif hakkı sahipleri ekstra ödeme talep edebilirler. Potansiyel maliyetler şunlar olabilir:
- Geleneksel erişim (okuma) maliyetleri,
- Kopyalama hakkının elde edilmesine ilişkin maliyetler,
- Dijitalleştirme hakkının elde edilmesine ilişkin maliyetler,
- Madencilik uygulamasının yapılması sürecinde ortaya çıkan maliyetler. Erişim maliyetleri ve telif hakları ile ilgili konular süreç başlamadan önce değerlendirilmeli ve gerekli ödemeler yapılmalıdır.
- İşlem maliyetleri: Bu maliyetler metin madenciliğinin gerçekleşmesini sağlamak için gereken çaba ile ilgilidir ve çoğunlukla belirsizdir. Çünkü yayıncılar sıklıkla madenciliğin ne kadarına izin verildiğine ilişkin bilgi sunmaz. Ortaya çıkabilecek tüm işlem maliyetleri araştırmaya başlamadan değerlendirilmelidir.
- Giriş maliyetleri: Belirli bir bağlamda kullanılacak metin madenciliği araçlarını geliştirmek ve/veya yapılandırmak için gereken kaynakları ifade eder. Az yapılandırma gereken araçlar mevcuttur ancak daha üst düzey araçlar farklı bir alanda kullanılmadan önce genellikle adaptasyon ve eğitim gerektirir. İyileştirilmiş araçlar kullanıma sunulduğunda temel kavramları ve alanla olan ilişkiyi anlamak için bir alan uzmanı tarafından eğitilmelidir.
- Personel maliyetleri: Metin ve veri madenciliği önemli teknolojik ve analitik becerilerin yanı sıra alan uzmanlığı da gerektirir. Sadece gerekli becerilerin eğitimi ve geliştirilmesi ile ilgili önemli bir maliyet söz konusu olmayabilir ancak zamanla metin madenciliğine talep arttıkça deneyimli madencileri elde tutmak daha maliyetli hale gelebilir.
- Altyapı maliyetleri: Büyük koleksiyonlar üzerinde metin madenciliği önemli depolaam ve hesaplama kaynakları gerektirir. Büyük veri havuzu gerektiren metin ve veri madenciliği projelerinde altyapı maliyetleri dikkate alınarak planlama yapılmalıdır.
- Metin ve veri madenciliğinin potansiyel yararları
- Etkinlik: Metin ve veri madenciliğinin en önemli yararı mevcut bilginin çok daha verimli bir analizini sağlamasıdır. Bilgi çıkarma yeteneği, literatür inceleme süreçlerinde alan bilgisinin kapsamını sağlamak için harcanan zamanı otomatik olarak azaltır. Ayrıca metin madenciliği uygulanmış belgelere anlamsal bilgilerle eklenmiş açıklamalarla bu bilgilerin yeniden kullanımında daha da etkin olunması sağlanabilir.
- 'Gizli' bilgilerin kilidini açmak ve yeni bilgiler geliştirmek: Büyük yoğunluklu akademik yayınlar ve gri literatür, farklı alt konular arasında otomatik analiz olmadan bulunamayacak temel bağlantıların olabileceği anlamına gelir. Bu temel bağlantıların ortaya çıkarılması yeni bilgilere ve gelişmiş bir anlayışa yol açabilir.
- Yeni ufukların keşfi: Bazı alanlarda metin madenciliği sadece araştırmanın nasıl yapıldığını değil, neyin araştırıldığını da (yeni ufuklar ve araştırma soruları gibi) dönüştürebilir. Örneğin günümüzde yaygın olarak gerçekleştirilen dijital insani bilimler projeleri yalnızca tarihi belgelerde gömülü bilgilerin daha iyi anlaşılmasını sağlamakla kalmaz, ayrıca şu anda içinde yaşadığımız çoklu ortam dünyasının anlaşılması için de gelişmiş araçlar ve yöntemler sağlar.
- İyileştirilmiş araştırmalar ve kanıt tabanı: Anlamsal olarak açıklamalı derlemler veya yeniden kullanılabilir temsiller/alan sözlükleri, doğrudan diğer araştırmacılara ve geliştiricilere sunulduklarında önemli ölçüde geliştirilmiş bir araştırma kaynağı sağlar. Buradaki anahtar fayda başkalarının türetilmiş bilgisine kolayca sorgulanabilecek ve yeniden kullanılabilecek şekilde erişimdir. Bu sadece verimlilikle ilgili değil, aynı zamanda kullanılabilirlik ile de ilgilidir.
- Araştırma süreçlerinin iyileştirilmesi ve kaliteye ulaşma: Hem metin madenciliği araçlarının hem de yeniden kullanılabilir anlamsal çıktıların varlığı, yenilikçi yollarla uygulanabilecek yeni araç ve yöntemler sağladıkları için araştırma sürecinin kendisini iyileştirmeye yardımcı olur. Sadece yeni ufukların keşfedilmesini sağlamakla kalmaz, aynı zamanda bulguların karşılıklı çevrimine yardımcı olmak için de kullanılabilir.
- Diğer faydalar: Metin ve veri madenciliğinin potansiyel diğer yararlarını araştırma maliyetlerinde tasarruf ve üretkenlik, yenilikçi yeni hizmet geliştirme ve yeni iş modelleri olarak tanımlamak mümkündür.
- Metin ve veri madenciliğinin potansiyel risk ve engelleri
- Yasal belirsizlikler, yetim (orphan) eserler ve atıf gereksinimleri: Metin madenciliği çalışmasına başlayabilmek için telif hakkı sahiplerinden izin alınması gereklidir. Ancak bazı eserler için metin madenciliğine izin verilip verilmediği konusu sıklıkla belirsizdir. Bu belirsizlik ek maliyetlerle sonuçlanabilir.
- Giriş maliyetleri: Yukarıdaki bölümde de aktarıldığı gibi metin ve veri madenciliği uygulamalarının çeşitli maliyet riskleri vardır (eğitim maliyetleri, araçlar, telif hakları vb.). Tüm bu maliyet riskleri metin madenciliği projelerini olumsuz etkileyebilir.
- Metin madenciliği çalışmalarının sonuçlarındaki 'gürültü' (hata oranı): Belgelerde uygulanan metin madenciliği çalışmalarında çeşitli hatalar olabilir. Yanlış bağlantılar tespit edilebilir veya bazı bağlantılar gözden kaçabilir. Bazı çalışmalarda düşük hata oranları bile tolere edilemez. Bu gibi durumlarda bilgilerin çıkarılması ve bir alan uzmanının kontrolü ile hatalar azaltılabilir.
- Doküman biçimleri: Pek çok belgenin biçimi (formatı) çıkarılabilecek metin miktarını sınırlayabilir. Belgeler resim veya pdf formatında saklanıyorsa bu gibi sorunlar doğabilir. Bu tür belgeleri metin madenciliği dostu biçimlere dönüştürmenin standart ve tam otomatik bir yolu yoktur. Ayrıca, bu daha kolay biçimlerin mevcut/erişilebilir olduğu durumlarda yayıncılar erişim için ek ücret de isteyebilirler. Kurumsal arşivlerde bulunan belgeleri pdf olarak saklama eğilimi soruna daha fazla katkıda bulunur. XML metin madenciliği için tercih edilen biçim olmalıdır.
- Bilgi siloları ve şirketlere özel çözümler: Metin madenciliği anlaşmaları yapılmamış belgeler topluluğu veya yetim belgeler erişilemez bilgi silolarına yol açar ve metin madenciliğinin etkinliğini sınırlar. Bazı telif hakkı sahipleri, yalnızca ısmarlama metin madenciliği hizmetleri aracılığıyla şirketlerin metin madenciliğine izin verir. Bu potansiyel olarak ilgili belgelerin izole edilmesine veya bağlantısız bilgi silolarına yol açabilir.
- Şeffaflık eksikliği: Birçokları için metin madenciliği metin belgelerinin bütünlerinin girildiği ve yeni bilgilerin çıkarıldığı bir kara kutu olarak algılanır. Bu şeffaflık eksikliği kullanımı üç şekilde sınırlar: 1) Araştırmacıları tam olarak anlamadıkları şeyleri kullanmaktan caydırır, 2) İlgili süreç iyi anlaşılmadan yeni ve yenilikçi uygulamaların potansiyeli gözden kaçabilir, 3) Eğer süreç ve araştırma verileri şeffaf değilse başkalarının sonuçları yeniden üretmesi imkansızdır. Ki bu yeni bilginin akademik topluluklarca kabul edilebilmesi için kritik bir gerekliliktir.
- Destek, altyapı ve teknik bilgi eksikliği: Metin madenciliği, derlemlerin ve büyük bilgi havuzlarının ek açıklamalı kopyalarını oluşturan oldukça uzmanlaşmış bir faaliyettir. Küçük araştırma grupları ve bireysel araştırmacılar için bunu destekleyecek merkezi bir altyapının olmaması metin madenciliğinin kullanımını kısıtlayabilir. Ayrıca metin ve veri madenciliği konusunda temel düzeyde bilgi sunan kaynakların eksikliği de söz konusudur. Bu eğitim portalı gibi temel bilgi veren eğitim materyalleri aracılığıyla bu eksiklik giderilebilir.
- Kritik yoğunluk eksikliği: Uygulamada birçok disiplinde metin madenciliği uygulamaya yönelik olarak kritik yoğunluğun sağlanamamış olmasıyla ilgili eksiklik vardır. Kritik yoğunluğun oluşmamış olması metin madenciliği uygulamalarının başarımını azaltmaktadır.
Kaynakça
[1] JISC. (2012). The Value and Benefit of Text Mining to UK Further and Higher Education. Digital Infrastructure. Erişim adresi: http://bit.ly/jisc-textm Programme: Digital Infrastructure www.jisc.ac.uk/whatwedo/programmes/di_directions.aspx
Last modified: Sunday, 23 October 2022, 6:16 PM