Metin ve Veri Madenciliği: Metin ve veri madenciliği için geliştirilmiş bazı araç ve kaynaklar

Metin ve veri madenciliği için geliştirilmiş çeşitli amaçlara özel çeşitli araçlar aşağıda sunulmaktadır [1]:

Metin verisi kaynağı olabilecek araçlar:

Dil derlemleri: Türkçe Ulusal Derlemi, Zemberek, Acquis Communautaire (AC), Australian National Corpus, BYU Law & Corpus Linguistics, Chinese corpora, Chinese-English Parallel Corpora, corpus.byu.edu, Demo corpora for teaching, European language corpora, Japanese corpora, Parallel corpora, Research Centre for Professional Communication in English - Corpora resources, SEAlang Library, Virtual Language Observatory, Wikipedia - list of text corpora
Kütüphanelerin abonelikleri kapsamındaki veri tabanları: Bilimsel yayınları sağlayan veri tabanları en önemli metin madenciliği araçlarından biridir. TÜBİTAK ULAKBİM'in EKUAL projesi kapsamında Türkiye'deki pek çok üniversitenin çok çeşitli veri tabanlarına aboneliği bulunmaktadır. EKUAL kapsamında erişilebilen veri tabanlarına https://cabim.ulakbim.gov.tr/ekual/ adresinden erişilebilir.
Herkese açık kaynaklar: Genel kaynaklar; U.S. Census Bureau Data, Data.gov, Open Data Pennsylvania, Western Pennsylvania Regional Data Center, Digital Public Library of America, Google Books, Internet Archive & Open Library, Online Books Page, Project Gutenberg, Crossref text and data mining, Wikidata, Sosyal ve beşeri bilimler kaynakları; Chronicling America: Historical American Newspapers, Cultoromics Bookworm Viewer, Early English Books Online, Europeana APIs, University of Oxford Text Archive, WordHoard, Sağlık ve temel bilimler kaynakları; arXiv.org, BioMed Central, PLOS, PubMed Central Databases and Text Mining Tools, Hukuk kaynakları; CaseLaw Access Project
Sosyal medya kaynakları: Twitter API, Facebook API, YouTube API, Instagram API, Reddit API, Twitter Archiving Google Sheet (TAGS), Facepager, Social Feed Manager, Social Media Macroscope, Social Media Research Toolkit, tweepy, socialreaper, Twitter Scraper, streamR
Web araçları: Octoparse, Parsehub, Fminer, NCapture, Outwit (Hub, Images, Docs, Email Sourcer), Portia, Import.io, Webhose.io, Spinn3r, Data Scraper, Web scraper, Scraper, wget, OpenRefine, Scrapy, Beautiful Soup, Pattern, rvest, selectr

Kaynakça

[1] İçerik Pittsburgh Üniversitesi Kütüphanesi tarafından hazırlanan kütüphane rehberinden uyarlanmıştır. Erişim adresi: https://pitt.libguides.com/textmining

Last modified: Sunday, 23 October 2022, 8:56 PM