Metin ve veri madenciliğinde planlama, hazırlama ve uygulama
Metin ve veri madenciliği yol haritası
Metin ve meri madenciliği süreçleri ve her bir sürece ilişkin tanımlamalar aşağıda sunulmaktadır [1 ,2]:
1. Planlama: Planlama aşaması metin analizi süreçlerinin geri kalanını belirler çünkü analist analizin temelini bu aşamada oluşturur. Bu aşamada metin ve veri madenciliğinin size uygun olup olmadığına karar vermeniz gerekir. Metin ve veri madenciliği yinelemeli bir sorgulama ve keşfetme sürecidir. Sizi metin ve veri madenciliği yöntemleri uygulamaya aşağıdaki sebeplerden biri yönlendirmiş olabilir:
- Belirli bir alana ilgi,
- Cevabı bulunmak istenen bir araştırma sorusu,
- Daha fazla araştırma yapmak istenen belirli bir veri kümesi,
- Metin veya veri madenciliği yöntemlerini araştırmak.
Planlama aşamasında kendinize sormanız gereken temel sorular şunlardır:
- Kullanmayı planladığınız veri seti/metin makine tarafından okunabilir mi?
- Kullanmayı planladığınız veri seti/metin araştırma sorunuzu yanıtlamak için yeterli mi?
- Bir veri setini/metin kümesini kullanmak için yasal ve etik olarak izniniz var mı?
Bu soruların yanıtlanmasının ardından veri seti yaratma aşamasına geçilebilir.
2. Veri setini tanımlama: Metin veya veri madenciliği süreçlerine başlamadan önce derlem adı verilen bir veri kümesi oluşturmanız gerekir. Madenleme yapmak ve analiz etmek için bir külliyat oluştururken yaptığınız seçimler projenizin başarısı için oldukça önemlidir. Araştırma sorusu geliştirdikten sonra yapmanız gerekenler:
- Araştırma sorunuzu yanıtlayacak hangi içeriğe veya bilgilere ihtiyacınız olduğunu düşünün.
- Madencilik içinhangi kaynakların mevcut olduğunu gözden geçirin.
Bunları yapmak size zaman kazandıracak ve projenize en uygun yöntemi seçmenize yardımcı olacaktır.
Metin ve veri madenciliğini uygulayabilmek için:
- Derlem hazırlama sürecinde verilerin kullanılabilir olup olmadığını, nereden geldiğini, coğrafi kapsamını, temiz veya standart olup olmadığını, ne kadarına erişebildiğinizi dikkate alın. Ayrıca yasal, etik ve finansal sınırlılıkları da gözden geçirin.
- Metinlerin bilgisayarlarca okunabildiğinden emin olun. Çünkü metin ve veri madenciliğinin gerçekleşebilmesi için bir bilgisayarın metninizi okuyabilmesi gerekir. Okunamayan dokümanlar için çeşitli ön işlemler (OCR gibi) gerçekleştirilerek metinler okunabilir hale getirilebilir.
- Metin ve veri madenciliği yapmaya izin veren veri tabanları kullanılabilir. Herkesçe erişilebilen ve veri madenciliğine açık bazı veri tabanları aşağıda listelenmektedir:
3. Lisanslama, telif hakları ve etik: En başından itibaren metin ve veri madenciği faaliyetlerinizin ve bu faaliyetler sonucu ürettiğiniz yayınların tüm lisanslama hüküm ve koşullarına, telif haklarına ve etik gerekliliklere uygun olduğundan emin olun.
4. Veri temizleme ve veriyi analize hazırlama: Bir derlem oluşturduktan sonra metinlerinizin bir bilgisayarın anlayabileceği ve çalışabileceği bir biçimde olduğundan emin olmak için bazı adımlar atmanız gerekecektir. Ön işleme (pre-processing) belgeleri analize hazır hale getirmek için yürülen tüm işlemlere verilen genel addır. En bilinen ön işleme yöntemleri aşağıda sunulmaktadır:
- Tüm metni küçük harfe dönüştürme: Bilgisayarlar genellikle kelimelerin büyük ve küçük harfli yazılımlarını farklı sözcükler olarak algılayabilir. Bunun önüne geçmek için tüm derlem küçük harfe dönüştürülebilir. Ancak bazı durumlarda (Rose ismi ve İngilizce gül sözcüğü gibi) büyük-küçük harf ayrımı önemli olabilir. Bu gibi durumlar dikkate alınarak değişiklik gerçekleştirilmelidir.
- Kelime değiştirme: Yazımdaki farklılıklar sebebiyle bazen aynı sözcükler derlemde farklı şekillerde yer alabilmektedir (paediatric, pediatric, and pædiatric gibi). Bu gibi durumlarda standartlaştırmanın hangi sözcüğe yapılacağına karar verildikten sonra kelime birleştirme yapılabilir.
- Noktalama işaretleri veya alfasayısal olmayan karakterleri kaldırma: Noktalama işaretleri veya özel karakterler verilerinizde dağınıklık yaratabilir ve metni analiz etmeyi zorlaştırabilir (h-index, h index gibi). OCR'daki hatalar, metninize alışılmadık karakterlerin eklenmesine de sebep olabilir. Metninizdeki harf veya sayı olmayan karakterleri belirlemek ve bu karakterleri analiz öncesi kaldırmak dağınıklığı gidermeye yardımcı olabilir.
- Dur sözcüklerinin kaldırılması: 'the', 'that' gibi bir analize tamamen hakim olacak, ancak belgelerinizdeki metinler hakkında fazla fikir vermeyen, yaygın olarak kullanılan çok sayıda sözcük vardır. Bu sözcüklere dur sözcükleri adı verilir. Metni analiz etmeden önce bu sözcüklerin çıkarılması analizin başarımını artıracaktır. Bu amaçla açık kaynak kodlu dur listeleri kullanılabileceği gibi (örneğin: https://www.kaggle.com/datasets/rtatman/stopword-lists-for-19-languages?select=englishST.txt) kendi dur listenizi de yaratabilirsiniz.
- 'Tokenization': Birçok metin ve veri madenciliği yöntemi kelimeleri veya kısa cümleleri saymaya dayanır. Bununla birlikte bir bilgisayar kelimelerin veya cümlelerin ne olduğunu bilmez. Ona göre cümlenizdeki metinler sadece uzun karakter dizileridir. Bilgisayara metni saymasını ve hesaplamaları yapmasını sağlayacak anlamlı bölümlere nasıl ayıracağını söylemeniz gerekir. Bu işleme 'tokenization' adı verilir. En bilinen 'tokenization' yöntemi n-gram'dır.
- Sözbölükleri etiketleme (part of speech tagging): Bu işlem metinlere bağlam sağlamak için kullanılır. Metinler genellikle yapılandırılmamış veri olarak tanımlanır ve tanımlı bir yapısı/kalıbı olmayan verilerdir. Bilgisayarlar için de hiçbir şey ifade etmeyen uzun karakter dizileridir. Bu dizileri belirli şekillerde kategorize etmek için sözbölükleri etiketleme işlemi yapılabilir. Bu işleme örnek olarak aşağıdaki cümle verilebilir:
- Metin: They refuse to permit us to obtain the refuse permit
- Etiketlenmiş metin: They (pronoun) refuse (verb) to (to) permit (verb) us (pronoun) to (to) obtain (verb) the (determiner) refuse (noun) permit (noun)
- Varlık ismi tanıma (named entity recognition): Sözbölükleri etiketleme gibi bu yöntem de metne bağlam ve yapı sağlamak için kullanılır. Bu işlemde bir insanın ayrı bir varlık olarak tanımlayacağı metin içindeki "şeyleri" bulmak için yazılımın metni analiz ettiği bir süreç söz konusudur. Bu varlıklar daha sonra kişi, yer, kuruluş, uyruk, saat, tarih gibi çeşitli kategorilere ayrılır. Bu işleme örnek olarak aşağıdaki cümle verilebilir:
- Metin: Apple is an American tech company whose headquarters are located in Cupertino, California. It was founded by Steve Jobs and Steve Wozniak in April 1976.
- Etiketlenmiş metin: [Apple (organisation)] is an [American (nationality)] tech company whose headquarters are located in [Cupertino, California (geopolitical entity)]. It was founded by [Steve Jobs (person)] and [Steve Wozniak (person)] in [April 1976 (date)].
- Kökleme ve kök çözümleme (stemming and lemmatization): Aynı köke sahip farklı kelimelerin aynı olarak kabul edilmesi sürecidir. Örneğin, swim, swam, swims, swimming ve swum sözcüklerini bilgisayarlar ayrı sözcüklermiş gibi ele alır ancak bunların hepsi yüzme eylemini işaret eden sözcüklerdir. Kök çözümleme işleminde aynı köke sahip tüm sözcükler kökte birleştirilir.
5. Metin ve veri madenciliği: Tüm bu süreçlerin tamamlanmasının ardından metin ve veri madenciliği uygulamasına geçilebilir. En bilinen metin ve veri madenciliği yöntemleri aşağıda listelenmiştir:
- Konu modellemesi (topic modelling): Tüm metninize bakan ve birbiriyle aynı belgelerde görünme eğiliminde olan kelime gruplarını tanımlayan bir yöntemdir. Metinlerde görünen söylemlere veya konulara genel bir bakış sunarak ilk keşfi yapmak, bir bütünden kapsayısı temaları veya kavramları bulmak ya da mevcut araştırmalardaki boşlukları veya eğilimleri belirlemek gibi amaçlarla gerçekleştirilir.
- Duygu analizi (sentiment analysis): Bir metindeki duygunun olumlu, olumsuz veya nötr olup olmadığını belirlemek için kullanılır. Olumlu veya olumsuz sıfat ve deyimlerin varlığına göre cümleler puanlanır ve sonuçlar sunulur. Bir metnin genel ruh halini ölçmek, konulara verilen duygusal tepkileri araştırmak, kamu algısını ve bu algının zamana göre değişimini izlemek gibi sebeplerle gerçekleştirilir.
- Terim sıklığı ve TF-IDF: Bir belgede derleminizdeki bir kelimenin/cümlenin ne sıklıkta göründüğüne bakan bir yöntemdir. En basit haliyle terimin kaç kez geçtiği sayılarak hesaplanır ve metinlerde en çok tartışılan konular hakkında bilgi verir. Bir kelimenin veya terimin zaman içinde nasıl kullanıma girdiğini anlamak veya dilin nasıl kullanıldığına dair içgörü sağlamak üzere gerçekleştirilebilir.
- Birliktelik (eşdizim) analizi (collocation analysis): Bir eşdizim tesadüfen beklenenden daha sık birbirine yakın görünme eğiliminde olan iki veya daha fazla kelimeden oluşan bir gruptur. Birlikte meydana gelen kelimeleri belirlemek için istatistiksel testler kullanılır ve birlikte oluşumların rastgele şanstan daha büyük olup olmadığını belirlemek için ilişkinin gücü değerlendirilir. Söylemleri/deyimleri tanımlamak/araştırmak, bir dili anadili olarak konuşanların cümle yapısını anlamak gibi sebeplerle kullanılabilir.
Kaynakça
[1] Anandarajan, M., Hill, C., Nolan, T. (2019). Introduction to Text Analytics. Practical Text Analytics. Advances in Analytics and Data Science içinde (ss. 1-11). Springer, Cham. https://doi.org/10.1007/978-3-319-95663-3_1
[2] The University of Sydney. Introduction to text and data mining. Erişim adresi: https://libguides.library.usyd.edu.au/text_data_mining/home