Metin Madenciliği: İmkanlar, Yöntemler ve Kısıtlar (original) (raw)

Meti̇n Madenci̇li̇ği̇: İmkânlar, Yöntemler Ve Kisitlar

Mehmet Akif Ersoy Üniversitesi Sosyal Bilimler Enstitüsü Dergisi, 2020

Dünyada ortalama olarak her gün 2,5 milyar GB verinin üretildiği hesaplanmaktadır. Bu miktarın yaklaşık olarak %80’inin ise metin formunda olduğu tahmin edilmektedir. İnsanların bilgiyi tablolar halinde değil düz yazı formunda, doğal dille kaydetmeleri ve doğal dilin esnekliği nedeniyle bu durum var olmaya devam edecektir. Devasa miktardaki bu metinlerin insanlar tarafından okunarak değerlendirilmesi mümkün değildir. Bu verilerden anlamlı sonuçlar üretmek metin madenciliğinin konusudur. Metin madenciliği sayesinde, metinlerin programlanan algoritmalar yardımıyla özetlenmesi, sınıflandırılması, etiketlenmesi ve seçilmesi mümkündür. Metin Madenciliği bu özellikleri ile tüm organizasyonlar için çok çeşitli fırsatlar sunmaktadır. Türkçe literatürde metin madenciliği alanının uygulamalarından ziyade metin madenciliğinin arka planını ve olanaklarını inceleyen çalışmalara ihtiyaç bulunmaktadır. Bu çalışma da bu boşluğu doldurmayı ve araştırmacıların metin madenciliği olanaklarını incelemel...

Metin ve Web Madenciligi

Verinin büyük boyutlara ula$mas ve bilgisayar donan mlar n n bu büyük boyuttaki veriyi depolayarak yüksek kapasitede analiz yapabilecek seviyelere gelmeleri ile birlikte analistler karma$ k ko$ullar ile kar$ kar$ ya kalmaktad rlar. Bu karma$ k ko$ullar n ço u yap sal olmayan verinin etkin bir ekildesaklanmasveanaliziileiliekilde saklanmas ve analizi ile iliekildesaklanmasveanaliziileilikilidir. Merrill Lynch, potansiyel olarak kullan lan bütün verilerin yakla$ k %80'inin yap sal olmayan türde oldu unu ifade etmi$tir. Bu büyük ve karma$ k yap daki yap sal olmayan veri analistlere yeni f rsatlar açmaktad r. Bu çal mada,yapsalolmayanverininmetinvewebmadenciliiyo¨ntemleriileyapsalhaledo¨nu¨mada, yap sal olmayan verinin metin ve web madencili i yöntemleri ile yap sal hale dönümada,yapsalolmayanverininmetinvewebmadenciliiyo¨ntemleriileyapsalhaledo¨nu¨türülmesi sonucu modele dahil edilmesinin, model ba$ar s na yapaca katk analiz edilmi$tir. Karar a ac yöntemlerinden C5.0 algoritmas kullan larak elde edilen modeller birbirleri ile kar$ la$t r lm $ ve en iyi model tespit edilmi$tir.

Metin Madenciliği ile Endüstri 4.0’da Yeni Eğilimler

International Journal of Political Studies, 2021

Bilisim ve teknoloji caginin bir sonucu olarak baslayan Endustri 4.0 verileri alan, ileten, degerlendiren ve yoneten sistemleri icermektedir. Bu sistemlerdeki cihazlarin her turlu hareketleri gercek zamanli izlenir, bu izleme verileri cesitli kanallarla iletilir ve saklanir, bilisim sistemleri kullanilarak degerlendirilir ve siber fiziksel sistemlerle gerekli mekanizmalarin harekete gecmesi saglanir. Bu nedenle bu teknolojilere ait kavramlar Endustri 4.0 ile ilgili bilimsel makalelerde sikca yer alir. Bu fikirden yola cikarak bu calismada Endustri 4.0’daki temel kavramlar ve yeni egilimler arastirildi. Bu amacla Endustri 4.0 ile ilgili cok atifa sahip 75 bilimsel makale secilmis ve bu makalelerde en cok kullanilan ikili ardisik kelimeler (bigram) ve uclu ardisik kelimeler (trigram) bulunmustur. Daha sonra, 2017'e kadar olan yillara ait bilimsel makalelerde yer almayan, ancak 2017 ve sonrasindaki en az iki farkli yildaki makalelerde gorulen ve ayni zamanda en cok kullanilan ilk 1...

Maden Atiklarinin Sürdürülebi̇li̇r Manyeti̇k Pi̇gment Olarak Teksti̇l Sektörüne Geri̇ Kazanimi

Eskişehir Osmangazi Üniversitesi Mühendislik ve Mimarlık Fakültesi Dergisi, 2021

Tekstil Endüstrisinin gün geçtikçe artan tüketici sayısı ile çevreye verdiği zararda artmaktadır, bu zararın en büyük sebeplerinden biri ise kullanılan sentetik boyalardır. Bu boyalara alternatif olarak doğal pigmentlerin kullanımı hem insan sağlığı hemde çevre açısından önemli olacaktır. Bu çalışmada, sentetik boyalara alternatif olarak çeşitli renk ve manyetik özelliklere sahip demir oksit esaslı pigmentler incelendi. Manyetik pigmentlerin geliştirilmesinde eski maden sahasından alınan asidik maden dranajından yararlanıldı. Stabilitelerini artırmak için, yerinde sentez esnasında ortama % 3 kil (sepiolit ve halloysit) katılarak kompozit yapılar hazırlandı. Bu yapılarda dijital baskılara uygun olması için manyetik duyarlılık arandı. Halloysit katkılı numunelerin manyetik özelliklerinin bir miktar azaldığı gözlenirken, Sepiyolitli numuneler manyetik özelliklerini korumuşlardır. Pigmentlerden elde edilen renkler RGB (Red Green Blue) renk değişkenliği testlerine tabi tutularak, renk değerleri onaltılık biçime işlenerek dönüştürüldüğünde kırmızımsı toprak tonundan koyu siyaha kadar pigmentlerin renginin derinleşdiği görülmüştür. Renk kartelasında en kırmızı renk #4a0f07, en açık sarı #783c00 ve en siyah renk #1b100c ile sırasıyla halloysit, sepiyolit ve kilsiz edilmiştir. Böylece, farklı renklerde ve manyetik özelliklerde pigmentlerin üretiminde, terk edilmiş ve çevreye zarar verebilecek maden atıklarının ikincil bir kaynak olarak değerlendirilebileceği görülmüştür.

Metin Madenciliği ile Shakespeare Külliyatının İncelenmesi

2020

Metin madenciligi, dogal dil metninde yer alan yapilandirilmamis (metin) verilerin cesitli yontem, arac ve tekniklerin kullanilarak analiz edilmesidir. Bugun, kurum ve kuruluslarin cogu, veri ambarlarinda ve bulut platformlarinda buyuk miktarda veri toplamakta ve depolamaktadir. Bu veriler, birden fazla kaynaktan gelen yeni verilerin gelmesiyle birlikte, ussel olarak artmaya devam etmektedir. Şirketlerin ve kuruluslarin geleneksel araclarla buyuk miktardaki metin verilerini depolamasi, islemesi ve analiz etmesi zordur. Bugun, gelisen Tableau gibi yazilimlar sayesinde bu problemler ortadan kalkmistir. Bu calismanin amaci; metin madenciligi yontemi ile Shakespeare eserlerindeki kahramanlari ve olay orgulerini istatistiksel olarak saptamak ve edebiyat alaninda calisanlara bazi ongoruler saglamaktir. Bu amacla calismada, Tableau yazilimi kullanilarak Google BigQuery’nin alt yapisinda bulunan Shakespeare veri setine kelime frekanslari, gorsellestirme ve kumeleme analiz yontemi uygulanmis...

Sosyal Bilimlerde Metin Madenciliği - Kitap

Sosyal Bilimlerde Metin Madenciliği - Kitap, 2019

SOSYAL BİLİMLERDE METİN MADENCİLİĞİ WORDSTAT UYGULAMALARI (WordStat 30 Gün Ücretsiz Deneme Sürümü Desteği) Bu kitap, kullanıcıya herhangi bir programlama dili ya da ileri istatistiksel analiz ve modeller bilmeden temel ve ileri düzeyde metin madenciliği uygulamaları yapma imkânı sunmaktadır. Bu kapsamda, Türkiye’de sosyal bilimciler için yazılmış, alanının ilk kitabı olma özelliğini taşımaktadır. Kitap, şirketler ve kamu kurumları için de metin içerikli verilerini* analiz etmeleri adına bir başucu kitabı niteliğindedir. Sosyal Bilimlerde Metin Madenciliği WordStat Uygulamaları kitabında verilen örnekleri uygulayarak öğrenmek için, WordStat yazılımının tüm özellikleri aktif olan 30 günlük ücretsiz deneme sürümü Provalis Research internet sitesi (https://provalisresearch.com/downloads/trial-versions/) üzerinden indirilebilir. * İletişim, Medya Çalışmaları, Siyaset Bilimi, Kamu Yönetimi, Sosyoloji, Bilgi ve Belge Yönetimi, Eğitim, Psikoloji, Yönetim Bilimi ve Pazar Araştırması Alanında Metin İçerikli Yapılandırılmamış/Yarı-Yapılandırılmış Verilerin İçerik Analizi ve Madencilik Uygulamaları: - Twitter, YouTube, Facebook vb. Sosyal Medya Verileri - Tüketici Yorumları, Şikayet, Talep ve Öneri Verileri - Bildiri, Makale, Kitap, Gazete, Dergi ve Rapor Verileri - İnternet Sayfaları, Forum, Sanal Topluluk Verileri - Kategorik Sözlük ve Sözlük Oluşturma - Fikir / Duygu Analizi - Sentiment Analysis - Konu Başlığı Oluşturma ve Özetleme - Kümeleme ve Birliktelik Analizleri - Makine Öğrenmesi ile Sınıflandırma - Coğrafi Bilgi Sistemleri Destekli Harita Görselleri Oluşturma

Metin Madenciliği Yöntemleri ile Twitter Verilerinden Bilgi Keşfi

Eskişehir Türk Dünyası Uygulama ve Araştırma Merkezi Bilişim Dergisi, 2021

Son zamanlarda bilişim teknolojilerinin gelişmesiyle birlikte veri miktarı gün geçtikçe artmaktadır. Bir verinin bilgiye dönüşmesi için verilerin analiz edilmesi, yorumlanması, işlenmesi ve bunlara bağlı olarak verilerden anlamlı bilgilere erişmek için kullanılan bir yöntem olan metin madenciliğinin önemi de artmaktadır. Metin madenciliği yönteminde, veri kaynağı olarak metinler ele alınmaktadır. Metin madenciliği, metinlerden istenilen bilgiye erişmek amacıyla kullanılmaktadır. Bu çalışmada, ilk olarak literatürde önemli bir yere sahip olan metin madenciliği yöntemi ile twitter üzerinden aşı (vaccine) ile ilgili iki farklı veri elde edilmiştir. Daha sonra ise verilerin duygu analizleri yapılmıştır. İlk veri seti covid19 aşısı 3. faz denemeleri esnasındaki elde edilen twitter verilerinden oluşmakta iken ikinci veri seti covid19 aşısının 3. faz denemeleri esnasında seri üretim duyurusu yapıldıktan sonra elde edilen twitter verilerinden oluşmaktadır. Bu verilere göre yapılan duygu analiz sonuçlarında önemli farklılıkların olduğu tespit edilmiştir.

Metin Madenciliği İçin İyileştirilmiş Bir Kümeleme Yapısının Tasarımı Ve Uygulaması

2011

Veritabanlarında Bilgi Keşfi olarak da adlandırılan Veri Madenciliği, veritabanları ve veri ambarları gibi çeşitli veri depolarında saklanmakta olan büyük miktardaki verinin işlenerek içindeki geçerli, daha önceden bilinmeyen, potansiyel olarak kullanışlı, yararlı ve değerli olabilecek bilginin çıkartılması sürecidir. Veri madenciliğinin önemli tekniklerinden biri olan veri kümeleme, benzer veri nesnelerinin farklı gruplara sınıflandırılması işlemidir. Bir veri kümesi belirli bir uzaklık ölçütüne göre alt kümelere ayrılırken hedef her bir altkümedeki nesnelerin ortak bir karaktere sahip olmasıdır. Metin Kümeleme ise doküman koleksiyonlarının doküman benzerliklerine bağlı olarak kümelere ayrıştırılmasıdır. Sonuç olarak, bir küme içerisindeki dokümanların genellikle benzer bir konuda olmaları beklenir. Bu tez çalışmasında, metin veri setlerinin kümelenmesi için geliştirilmiş algoritma ve yaklaşımlar ayrıntılı olarak incelenmiş, çok boyutlu ve çok büyük metin veri setlerini kümelenmesinde karşılaşılan sorunlar ve zorluklar irdelenerek bunlar için çözüm yöntemleri getirilmiştir. Tez çalışması dört bölümden oluşmaktadır. İlk bölümde öncelikle veri madenciliği, metin madenciliği ve metin kümeleme kavramları tanımlanarak metin kümelemedeki güncel problemlerden bahsedilmiştir. Daha sonra, tez kapsamında çözüm getirilen problemin tanımı yapılarak tezin amacı ve organizasyonu verilmiştir. Problemin tanımının ardından ikinci bölümde metin madenciliği sistemlerinin genel yapısı, metin kümeleme, metin kümelemede karşılaşılan sorunlar, önişleme teknikleri, doküman temsil yöntemleri, boyut indirgeme teknikleri incelenmiştir. Ayrıca metin kümeleme sürecinin kalitesini ve başarımını doğrudan etkileyen uzaklık ve benzerlik ölçüm yöntemleri ile kümeleme kalitesi ölçüm yöntemleri ele alınmıştır. Bu bölümde son olarak metin kümeleme alanında yapılmış önemli çalışmaların, önerdikleri yaklaşım ve çözüm yöntemleriyle kapsamlı olarak incelendiği geniş bir literatür taramasına yer verilmiştir. Tez kapsamında, çok boyutlu doküman koleksiyonlarının yüksek başarımla ve verimli bir şekilde kümelenebilmesi amacıyla, keskin kümeleme yapan Küresel K-Means algoritmasında değişiklik yapılarak esnek kümeleme yaklaşımlarındaki örtüşen kümeler oluşabilmesi fikri Küresel K-Means algoritmasına uygulanmış, K-Means döngüsü içerisinde dokümanların kümelere benzerliklerine göre belli ölçüde birden çok kümeye dahil olmasına izin verildiği özgün bir algoritma olan Çoklu-Küme Küresel K-Means algoritması geliştirilmiştir. Üçüncü bölümde, geliştirilen bu yeni kümeleme algoritmasının yapısı ayrıntılı olarak açıklanmış ve analiz edilmiştir. Çeşitli metin veri setleri üzerinde gerçekleştirilen deneylerle Çoklu-Küme Küresel K-Means algoritmasının işlemci zamanı kullanımında hissedilir bir fark oluşturmadan kümeleme kalitesinde büyük bir artış sağladığı, temel alınan Küresel K-Means algoritmasının ölçeklenebilirliğini koruyarak büyük doküman koleksiyonları üzerinde uygulanabilir olduğu gösterilmiştir. Dördüncü bölümde, tez çalışması ile geliştirilen algoritmanın genel değerlendirmesi yapılarak sağlanan bilimsel katkılar özetlenmiş, konu ile ilgili çalışacak araştırmacılar için öneriler verilmiştir.

Edirne Mektuplarının Metin Madenciliği Analizi

VIII. International Balkan and Near Eastern Social Sciences Congress Series, 2018

Özet: Avrupa, Balkan ve Türk tarihinde Edirne her zaman stratejik öneme sahip bir yerleşim bölgesi olmuştur. Balkan savaşları sonrası dönemin süreli yayınlarında Edirne'nin mevcut durum değerlendirmesi çeşitli gazeteci ve araştırmacı yazarlar tarafından mektuplarla ifade edilmiştir.

Metin Madenciliği ile Soru Cevaplama Sistemi

emo.org.tr

Baş döndürücü hızla büyüyen bilgi teknolojileri alanında giderek artan verilerden kullanışlı bilgi elde etmek önemi giderek artan bir konu olarak karşımıza çıkmaktadır. Bilgiyi elde etmede en az maliyetli, en iyi sonucu veren metotlar tercih edilmeye başlanmıştır. Bu bağlamda ...