Ana sayfa » Duygu Analizi ve Metin Madenciliği
Sosyal Teknoloji

Duygu Analizi ve Metin Madenciliği

Sosyal medyada Metin Madenciliği

Duygu Analizi ve Metin Madenciliği; Metin madenciliği, özellikle 2000’li yıllarda daha fazla ilgi gören, serbest formatta bulunan metinler içerisinde yer alan fakat daha önceden bilinmeyen bilgileri ortaya çıkarmayı sağlayan işlemler bütünüdür.

Bir başka ifadeyle metin madenciliği, belirli bir formatı olmayan dağınık verinin içerisinden anlamlı veriyi ortaya çıkarmayı amaçlamaktadır.

Duygu Analizi ve Metin madenciliği, en temel seviyede yapılandırılmamış bir metin dokümanını sayısallaştırır ve sonra veri madenciliği araçları ve teknikleri kullanarak, onlardan örnekler çıkarır.

Metin madenciliği, bilgi erişim sistemleri ve doğal dil işleme ile ilgili olarak yapılan araştırmalar sonuca ortaya çıkmıştır. Araştırmanın temel maddesi olan veriler iki gruba ayrılır;

Yapılandırılmış veriler (Structured data); erişimi ve incelemesi geleneksel yöntemlerle en kolay ve hızlı biçimde yapılabilen verilerdir. Bu veriler tablo üzerinde satır, sütun halinde veya bilgisayarlarda matris şeklinde düzenlenmiş verilerdir.

Yapılandırılmamış veriler (Unstructured data); herhangi bir biçimsel kurala bağlı olmayan, büyük ölçüde metinsel içerik taşıyan, işlenip incelenebilmesi için metin işleme yöntemleri gereken verilerdir. Bu veriler mektup, doküman, kitap gibi kağıt üzerindeki veya e-mail, web sayfası gibi bilgisayardaki metinlerden oluşur.

Duygu Analizi
Metin madenciliği

Duygu Analizi ve Metin madenciliği, yapılandırılmamış formattaki verilerin içerisindeki bilgiyi ortaya çıkaran ve internet kullanımı ile birlikte meydana gelen doküman yığınlarının işlenmesiyle ilginin giderek arttığı önemli bir alan olarak görülmektedir.

Metin madenciliği, sosyal medyada yer alan kısa metinlerin analizinde (sosyal medya analizi), metinlerdeki duygu ve düşünce ifade eden terimlerin analizi (duygu analizi), sadece internet sitelerinin incelenmesi (internet analizi) gibi alanlarda kullanılmasının yanı sıra yapılacak bir anket çalışmasının incelenmesinde, mesaj ve e-mailleri otomatik olarak işlenmesinde, pazar araştırması çalışmalarında da sıklıkla kullanılmaktadır.

Metin Madenciliği Adımları,Metinlerde Duygu Analizi ve Metin Madenciliği

Genel olarak metin madenciliği dört adımdan oluşmaktadır;

Metin Koleksiyonu Oluşturma

Duygu Analizi ve Metin madenciliğinde atılacak ilk adım ilgili dokümanların toplanmasıdır. Metin madenciliği ‘derlem’ olarak da adlandırılan doküman koleksiyonu ile başlamaktadır. En basit şekliyle derlem, metne dayalı dokümanların herhangi bir grubu olarak tanımlanabilir.

Geleneksel veri tabanı ile kıyaslandığında metin koleksiyonu, yapısal olmayan ham verilerden oluşmaktadır. Ham veriler, günümüzde özellikle internet ortamları kullanılarak toplanmaktadır.

Dokümanların oluşturduğu derlemlerin yapısı statik veya dinamik olabilmektedir. Derlemelerin eğer başlangıçtaki durumları değişmeden kalıyorsa statik yapıda oldukları söylenebilir. Buna karşın zaman içerisinde yeni dokümanlar ekleniyor veya dokümanlar güncelleniyorsa, derlemin dinamik olduğunu söylemek mümkün olacaktır.

Duygu Analizi

Metin Önişleme

Yapılandırılmamış ham veri üzerinde duygu Analizi çalışılması elde edilen sonuçlar üzerinde farklılıklar meydana getirebileceği gibi analiz sürecinin de uzamasına neden olacaktır. Bu sebeple ham verinin metin madenciliğine hazırlanması için gereksiz kelimelerden arındırılması, yazım hatalarının düzeltilmesi, köklerine ayrılarak yanlış kullanılmış kelimelerin düzeltilmesi gibi önişleme tekniklerine ihtiyaç duyulmaktadır.

Veri kalitesinin iyi olması hatasız veya en az hatalı sonuçlar almayı mümkün kılmaktadır. Bu nedenle metin önişleme, veriden daha anlamlı bilgi üretebilmek için metin  madenciliğinin  en  önemli  adımıdır.  

Duygu Analizi

Duygu Analizi, Metin ön işleme sürecinde, veri temizlemenin yanı sıra veriyi uygun formata dönüştürme gerçekleşir. Bu aşamanın sonunda metinler yapılandırılmış formata dönüştürülmüş olmaktadır.

Türkçe gibi sondan eklemeli dillerde kelimeye eklenecek her bir ek anlamı değiştirmekte ve aynı gövdenin ek almış hallerinin farklı duygu analizi anlamlarda olması değerlendirmeyi zorlaştırmaktadır. Bunun yanında tek bir Türkçe kelimeden çok sayıda farklı anlamda kelimeler oluşabilmektedir. Bu durumda farklı metin önişleme teknikleri gerekmektedir.

Metin ön işleme teknikleri sırasıyla açıklanmıştır:

İşaretleme: Metin ile ilgili çalışmalarda atılacak ilk adım işaretleme işlemidir. Ham metin verilerinde bulunan bütün tümcelerin işaretlere bölünmesidir. Elimizdeki ham verinin daha kaliteli hale getirilmesi, veri boyutunun da küçültülerek işlem kabiliyetimizin artması adına metnin sadeleştirilmesi gerekmektedir.

Duygu analizi ile her bir kelimeyi ayrıştırabilmemiz için toplam metni sadeleştirmek ve işaretlememiz gerekmektedir. Işaretleme işleminde dokümanlar bölüm, kısım, paragraf ve hatta hecelere ayrılabilir. Metin içerisinde bulunan noktalama işaretleri, tek başına boşluk karakterinden fazla olan boşluklar ve diğer metine konu olmayan karakterlerin temizlenmesi şeklinde işaretleme gerçekleşir.

Böylelikle metin olarak geriye kelimeler ve kelimeler arası birer boşluklar halindeki sade metin kalır.

Duygu Analizi, Metin içerisindeki tümcelerin işaretlere bölünmesi bazı durumlarda zor olabilmektedir. Bunun nedeni belirli karakterlerin kullanımına bağlı olarak bazı durumlarda işaretin sınırlayıcı olması, bazı durumlarda ise olmamasıdır.

Örneğin boşluk, sekme ve satırbaşı karakterlerinin hep sınırlayıcı olduğu, işaret olarak sayılmadığı varsayılmaktadır. Bununla birlikte nokta virgül tire “-” gibi karakterler ortamlarına bağlı olarak sınırlayıcı veya işaret olabilirler.

Gövdeleme

Duygu Analizi, Gövdeleme: işaretlemeler belirlendikten sonra bu işaretlerin her birinin standart forma çevrilme işlemidir. Gövdeleme işleminin gerekli olup olmaması uygulamaya bağlıdır. Bazı uygulamalarda fayda sağlayacağı gibi gerek duyulmayan gövdeleme işlemi fazladan yapılmış olabilmektedir. Gövdeleme işlemi iki ana başlık altında gerçekleşir.

Joker Yöntemi

Duygu Analizi, Joker Yöntemi: Joker kelime, aynı köke sahip farklı ekler almış yakın anlama sahip kelimeleri tek bir grup altına toplayan kelimelerdir. Ek almış her kelime sözlük boyutunu artırarak performansı düşüreceği gibi işlem sürecinin uzamasına yol açacaktır. Bu nedenle bu kelimeler, anlamı karşılayacak bir gövdeye indirgenmektedir. Örneğin yolda, yollar, yoldan kelimelerini bir grupta toplayan ‘yol’ joker kelimesinden sonra nasıl bir ek gelirse gelsin yol anlamı vurgulanmış olacaktır.

Köke Kadar Gövdeleme

Duygu Analizi, Köke Kadar Gövdeleme: Joker yöntemine göre daha katı bir gövdeleme işlemidir. Köke kadar gövdelemenin amacı, sondan eklemeli dil olan Türkçe’ de çekim ya da yapım ön ekleri olmadan kök formata ulaşmaktır. Bu tür katı gövdelemenin sonucunda metin içindeki tip sayısında önemli bir şekilde azalma meydana gelmektedir.

Kök bulmada karşılaşılabilecek iki sorun vardır ; Birincisi, bu işlemde çok ileri giderek birbirinden anlamca çok farklı kelimelerin aynı anlam grubuna bağlanmasıdır. Bu durumda sistem, konuya uygun olmayan dokümanları da konuyla ilgili şekilde yorumlayabilir.

Diğer bir sorun ise, kelimelerin köklerine ulaşılmaya çalışılırken işlem bitiminde çok az kök elde edilmesi işlemidir. Bu durumda da sistem konuya uygun dokümanları uygun olmayan dokümanlar olarak algılayabilir.

Sözlük Oluşturma

Duygu Analizi, Sözlük Oluşturma: Genel anlamıyla sözlük, kelimeleri ve işaretleri bir arada barındıran, sözcüğün kökünü esas alan eserlerdir. Sözlükte yer alan kelime sayısından çok kelimenin niteliğini önemlidir. Sözlük oluştururken yer kaplayacak gereksiz kelimelerin alınmaması performans açısından büyük önem taşımaktadır.

Örneğin bir kelimenin hem tekil hem çoğulunu sözlüğe dahil etmek yerine gövdeleme işlemi ile sözlük boyutunda büyük bir azalma sağlanabilmektedir. Sözlük oluşturma da köke kadar gövdeleme işlemi hafif anlam kaymalarına neden olabilmektedir.

Joker kelimeler sözlüklerin kelime sayısını azaltmakta böylece işlem süreçleri kısalıp daha başarılı sonuçlar elde edilebilmektedir.

Sözlük Oluşturma Örneği
Kapsama Ağırlık İnternet Fatura
Sokak 0.1 Yavaş Tarife
Çek* 0.3 GB Fiyat
Kapsam* 0.1 Kota Abonelik

Tabloda oluşturulan sözlük ve puanlar görülmektedir. Örnek olarak, kapsama kategorisi altındaki “çek” kelimesi “çekim, çekmiyor, çekmez” gibi kelimelerin joker ifadesini oluşturmaktadır. “Kapsam” joker ifadesi ise “kapsam, kapsamıyor, kapsamamakta” gibi kelimelerin joker ifadesidir.

Sosyal Medyada Metin Madenciliği

Duygu Analizi, Sosyal medya bilgi ve deneyimleri paylaşmak amacıyla tek yönlü paylaşımdan çift taraflı ve eş zamanlı paylaşımlara ulaşılmasını sağlayan sosyal etkileşim alanlarının bütünüdür. Sosyal medya üzerinde yapılan tüm paylaşım, diyalog ve bilgi içerikleri sosyal medyayı oluşturur.

Sosyal ağ kullanıcısının artmasıyla birlikte sosyal medya üzerindeki veri akışı da artmaktadır. Bu veri artışına bağlı olarak işlenmemiş, yapısal olmayan veri miktarı da artış göstermektedir.

Bu verilerin anlamlı hale dönüştürülmesi ve bilgi çıkarımı yapılabilmesi için işlenmesi gerekmektedir. Bu da veriden anlam çıkarabilme özelliği olan duygu ifadelerinin analizi yöntemlerini sosyal medya verilerine yöneltmiştir.

Tüketici verileri,

Tüketici verileri, ürün hakkında bilgi, duygu analizi ve düşünce takibi, yorum ve şikayetler, bilgi paylaşımı gibi birçok iletişimin sosyal ağlar üzerinden yapılması sosyal medyanın, üzerinde en çok veri barındıran platform olmasına neden olmuştur ve metin madenciliği çalışmalarını kaçınılmaz hale getirmiştir.

Duygu Analizi, Sosyal medyadaki veriler çeşitlilik ve ulaşılabilirlik açısından kolaylık sağlarken, birçok zorluğu da beraberinde getirmektedir. Sosyal medyada kullanılan dilin zaman içerisinde değişmesiyle kısaltmalar, sosyal medyaya özgü terimler ve birçok yazım hataları metin analizi için zorlayıcı hale gelmiştir.

Sosyal medya üzerindeki duygu analizi ve düşünce ifade eden terimlerin değerlendirilmesi ve yorumlanması çok uzun zaman alabilmektedir. Bir sosyal medya kullanıcısının bir ürün hakkında yapılan yüzlerce yorumu okuması ve buna bir karar vermesi zaman alan ve zahmetli biri süreçtir.

Bu kapsamda doğal dil işleme yöntemleri kullanılarak elde edilen düzgün metinler metin madenciliği duygu analizi teknikleri ile hızlı ve verimli analizler sağlayacaktır.

Duygu Analizi ve Metin Madenciliği

Yorum ekle

yazmak için tıklayın

This site uses Akismet to reduce spam. Learn how your comment data is processed.