Büyük Veri ve Trendler

Mirac Öztürk
10 min readAug 7, 2021

big data trends machine learning artificial intelligence

Merhabalar, iyi günler.

Bugün; teknolojik olarak evrimleşen dünyada en değerli ve en önemli bilgi kaynağı olan Veri ve bunun yanı sıra veri üzerinde yer alan bazı kült yaklaşımlar, ek olarak popüler trendler üzerinde duruyor olacağım.

Şimdiden iyi okumalar.

Günümüzde şirketler/kurumlar/kuruluşlar bünyelerinde bulunan teknolojik takibe dayalı olan sistemlerinde, olağan kazanımlarının dışında daha fazla çeşitlilik içeren ve büyüklüğü bir o kadar artan hacimlerde veri kazanımı elde etmeye başladı.
Bu baş döndüren hızda büyüyen veri kazanım çılgınlığını tetikleyen literatür üzerindeki en bariz açıklama ise;

Karar verme süreçlerini geliştirmek, süre gelen operasyonları iyileştirmek ve elde edilen veriyi maddi bir karşılığa dönüştürmek.

olarak ifade edilmeye başlandı.

Sürekli değişen zorlu koşullar altında şirketler (kurumlar-kuruluşlar) çağın rekabet koşullarına karşı adaptasyon sürecinde çeşitli birçok problem yaşamaktadır.
Bunlar öngürülememiş ya da geçmiş zaman dilimlerinde karşılaşılmış ve yanlış tercihlere yönelik gerçekleşmiş hataların sonuçları olarak dile getirilmektedir.
Süregelen ve çeşitliliği artan süreçler ile beraberinde elde edilen veriler dahilinde şirketler bu karşılaşılan problemlere yönelik çeşitli karar destek sistemleri ile karar verme süreçlerini iyileştirme çalışmalarına başladı.

Yanı sıra gerçekleşen bu karar verme süreçlerine yönelik iyileştirme çalışmaları dahili olarak doğrudan süre gelen operasyonların ve faaliyetlerin gelişmesine/iyileşmesine katkı sağladı.

Tüm bu gelişim içeren faaliyetlerin neticesinde ise doğrundan maddi bir karşılığa dönüşen kazanımlar elde edilmeye başlandı.

Elbetteki tüm bu faaliyetlerin odağında Büyük Veri ve yanı sıra evrimleşerek ortaya çıkarmış olduğu türevi ve niteliği olan Büyük Veri Analitiği, Büyük Veri Mimarisi, Büyük Veri Teknolojisi vb. gibi süreç ve destek niteliğindeki ifadeler literatür üzerinde yer almaya başladı.

Dilerseniz tüm bu süreçler, aksiyonlar, terminolojik kavramların öncesinde konunun genel özetini barındıran soru ve yanıtına değinelim.

Büyük Veri nedir?

Büyük Veri Nedir?

Büyük Veri; toplumsal medya paylaşımları, ağ günlükleri, çeşitli bloglar (içerik alanları), farklı dosya türleri gibi değişik kaynaklar üzerinden edinilen yapısal olan ya da olmayan tüm verilerin anlamlı/işlenebilir biçime dönüştürülmüş hali olarak ifade edilmektedir.

Bir bakıma insanların çeşitli işlemlere yönelik oluşturmuş olduğu verileri anlamlandırıp analiz ederek, belirlemiş oldukları problemlerin çözümlerine yönelik kullanabilecekleri inovatif bir enformasyon olarakta dile getirilmektedir.

Bu kavramın ortaya çıkışından önce tüm bağımsız depolanan ve yapısal olmayan veriler değersiz bir yığın olarak nitelendirilmekteydi.Nitekim bu çığır açan gelişim öngörülememekteydi.

Son yıllarda artan teknoljik gelişmeler, insanların akıllı teknoljik gereçlere ve hizmetlerine bağlı tutkuları çeşitli büyük veri faaliyetlerinin ciddi bir şekilde ivmesel olarak artmasını sağlamıştır.
Fakat dile getirmiş olduğumuz Büyük Veri ifadesinin serüveni zaman dilimi olarak 1960 yıllar ve öncesine kadar dayandırılmaktadır.

Peki nasıldı bu serüven ?

Büyük Verinin Tarihçesi

Büyük Veri‘nin tarihsel akışı; bir kesime göre büyük veri araçları/teknolojileri ya da büyük veri barındıran platformların tarih çizlegesi üzerinden değerlendirilmektedir.Bir kesime göre ise bunu İş Zekası kavramlarının ortaya çıkışından itibaren ele almak gerekmektedir.
Genel bağlamda ele alacağımız Büyük Veri tarihçesi;

  • Büyük Veri kavramlarını içeren yenilikleri/atılımları,
  • Büyük Veri depolayan/depolaması öngörülmüş girişimleri,
  • Büyük Veri kullanılmasını (işlenmesi, depolanması, ölçeklenmesi vb.) sağlayan teknolojik gelişimleri

baz almaktadır.

Dilerseniz zaman kaybetmeden tarihçeye hızlıca bir göz atalım;

1960 Öncesi

  • Bilgisayar Bilimi Temelleri* ve Temel İş Zekası Kavramları* ortaya çıktı.
  • Makine Öğrenmesi** kavramı ortaya çıktı.
  • *İs Zekası: Genel manada gerçekleştirilen tüm veri işleme, anlamlandırma ve görselleştirme faaliyetleri Business Intelligence (BI) — İş Zekası olarak ifade edilmektedir.
    **Makine Öğrenmesi: Teknik/Yapısal olarak öğrenebilen ve öngürüler oluşturup tahmin yapabilen algoritmaların çalışma ve inşalarını araştıran bir sistemsel yapı olarak ifade edilmektedir.
    Bilgisayar Bilimi Temelleri ve Temel İş Zekası Kavramları Öncüsü (Temsili Kurucu)
    : Hans Peter Luhn
    Makine Öğrenmesi Kavramı Öncüsü (Kurucular): Arthur Samuel

1960 Sonrası 1990 Öncesi

  • Modern İş Zekası Kavramları ortaya çıktı.
  • Veritabanı Üzerinde Bilginin Keşfi konulu ilk oturum gerçekleştirildi. (Ek Döküm)
  • İlk Web Sunucusu* kuruldu.
  • *Web Sunucu: Hosting ya da “barındırma” işlemini İnternet protokolü üzerinden sunan sunucu sistemidir.
    Modern İş Zekası Kavramları Öncüsü (Temsili Kurucu)
    : Howard Dresner (Yazım Eki)
    Veritabanı Üzerinde Bilginin Keşfi Oturumu Konuşmacıları: Ronald Jay Brachman ve Tej Anand
    İlk Web Sunucusu Öncüsü (Kurucular): Timothy John Berners-Lee

1994

  • Yahoo* oluşturuldu ve yayınlandı.
  • *Yahoo: Başlarda arama motoru olarak hizmet vermesine rağmen zamanla e-posta, anında iletileşme, e-posta grubu ve benzeri hizmetler de sunamaya çalışmış olan portal hizmetidir.
    Kurucular: David Filo ve Jerry Yang

1995

  • Birinci Uluslararası Bilgi Keşfi ve Veri Madenciliği Konferansı gerçekleştirildi.
  • Birinci Uluslararası Bilgi Keşfi ve Veri Madenciliği Konferansı Konuşmacıları: Komite (EK-1 / EK-2)

1996

1997

  • Makine Öğreniminin ilk resmi tanımı ortaya çıktı.
  • Makine Öğrenimi İlk Resmi Tanım Öncüsü: Tom Michael Mitchell

1998

1999

  • Apache Lucene* oluşturuldu ve yayınlandı.
  • Blogger** oluşturuldu ve yayınlandı.
  • *Apache Lucene: Java dili ile hazırlanmış açık kaynak kodlu bir arama motoru kütüphanesidir.
    **Blogger: Zaman damgalı girişlerle çok kullanıcılı blogları etkinleştiren çevrimiçi içerik yönetim sistemidir.
    Apache Lucene Kurucular: Doug Cutting
    Blogger Kurucular: Evan Williams, Meg Hourihan

2000

  • Tokyo Cabinet* veritabanı bulundu.
  • Google arama motoru oluşturuldu.
  • *Tokyo Cabinet: Anahtar-Değer (Key-Value) yönetimi üzerine kurulu veritabanı kütüphanesidir.
    Tokyo Cabinet Kurucular: Mikio Hirabayashi ve Google Developers

2001

  • Wikipedia* piyasaya sürüldü.
  • Lucene kaynak kodları açık kaynak olarak yayınlandı.
  • İstatistik revizyonu üzerinde Veri Bilimi çalışmalarına başlandı.
  • *Wikipedia: Kullanıcıları tarafından ortaklaşa olarak birçok dilde hazırlanan; özgür, bağımsız, ücretsiz, reklamsız ve kâr amacı gütmeyen bir internet ansiklopedisidir.
    Wikipedia Kurucular: Wikimedia Vakfı (CEO: Jimmy Wales)
    İstatistik Revizyonu Üzerinde Veri Bilimi Çalışmaları Öncüsü: William Swain Cleveland

2002

  • Friendster oluşturuldu ve kuruldu.
  • Friendster: Kullanıcıların birbirileri ile etkileşimde bulunmasını sağlayan sosyal ağ platformudur.
    Friendster Kurucular: Jonathan Abrams

2003

  • Nutch* oluşturuldu ve yayınlandı.
  • Google GPS Paper** oluşturuldu ve yayınlandı.
  • Google File System*** oluşturuldu.
  • *Nutch: Apachi Lucene’in arama ve listeleme bileşenlerini kullanarak açık kaynak kodlu bir arama motoru yaratma projesidir.
    **Google GPS Paper: Google GPS (Global Positioning System; Küresel Konumlama Sistemi) Paper; Google şirketine ait dünya üzerinde herhangi engelsiz bir görüş hattında her türlü hava koşulunda yer ve zaman bilgileri sağlayan uzay tabanlı uydu navigasyon sistemidir.
    ***Google File System: Büyük ticari donanım kümelerini kullanarak verilere verimli, güvenilir erişim sağlamak için Google tarafından geliştirilen tescilli bir dağıtılmış dosya sistemidir.
    Nutch Kurucular: Doug Cutting, Mike Cafarella
    Google GPS Paper Kurucular: Google Developers

2004

  • Solr* oluşturuldu ve yayınlandı.
  • Gmail** oluşturuldu ve yayınlandı.
  • Google MapReduce*** oluşturuldu ve yayınlandı.
  • Flickr**** oluşturuldu ve yayınlandı.
  • *Solr: Apache Lucene projesinin bir parçası olan tam metin arama, çok yönlü arama, devirgen kümeleme, veritabanı ile bütünleşik, Microsoft Word veya PDF benzeri belgeleri indeksleme gibi özellikleri olan açık kaynak kodlu oldukça esnek bir arama motorudur.
    **Gmail: Google şirketine ait ücretsiz web posta hizmetidir. (Google E-Mail)
    Gelişmiş hizmet imkanları sağlayan sistemler üzerindeki “ücretsiz” kelimesi/kavramı elbetteki ürünün doğrudan kullanıcı olduğunu hatırlatmaktadır.
    Kesinlikle birincil dereceden mahrem bilgilerinizi hiçbir platformda paylaşmayınız.
    ***Google MapReduce Paper: Google şirketine ait büyük verilerin işlenmesini sağlayan sistemdir. (EK)
    ****Flickr: Kullanıcıların içerik barındırması ve çevrimiçi etkileşim kurmasını sağlayan platformudur.
    Solr Kurucular:
    Apache Software Foundation
    Gmail Kurucular:
    Google Developers
    Google MapReduce Kurucular: Google Developers
    Flickr Kurucular: Stewart Butterfield, Caterina Fake

2005

  • YouTube* oluşturuldu ve yayınlandı.
  • Apache Hadoop** oluşturuldu ve yayınlandı.
  • Apache CouchDb*** oluşturuldu ve yayınlandı.
  • Google Sawzall**** oluşturuldu ve yayınlandı.
  • MySpace***** oluşturuldu ve yayınlandı.
  • *Youtube: Video barındırma ve interaktif paylaşım sitesi.
    **
    Apache Hadoop: Commodity Hardware adı verilen klasik sunucularda büyük verileri işlemek amacıyla kullanılan bir sistemdir.
    ***
    Apache CouchDB: Verilerini depolamak, aktarmak ve işlemek için birden çok format ve protokol kullanan bir sistemdir.
    ****Google Sawzall: Çok sayıda bireysel günlük kaydını işlemek için kullanılan, prosedürsel alana özgü bir programlama dilidir.
    *****MySpace: Kullanıcıların başka kullanıcılarla iletişim kurmasını ve bilgi alışverişi yapmasını amaçlayan bir sosyal ağ projesidir.
    Youtube Kurucular: Steve Chen, Chad Hurley, Jawed Karim
    Apache Hadoop Kurucular: Apache Software Foundation
    Apache CouchDB Kurucular: Damien Katz, Jan Lehnardt, Naomi Slater, Christopher Lenz, J. Chris Anderson, Paul Davis, Adam Kocoloski, Jason Davies, Benoît Chesneau, Filipe Manana, Robert Newson
    Google Sawzall Kurucular:
    Google Developers
    MySpace Kurucular:
    Chris DeWolfe, Tom Anderson, Jon Hart

2006

2007

2008

2009

2010

  • Elastic Search* oluşturuldu ve yayınlandı.
  • Apache Spark** oluşturuldu ve yayınlandı.
  • Google Pregel*** oluşturuldu ve yayınlandı.
  • Google Dremel**** oluşturuldu ve yayınlandı.
  • *Elastic Search: Apache Lucene altyapısından geliştirilmiş, hafif, kolay kurulan, açık kaynak kodlu, ücretsiz, ölçeklendirilebilen bir arama motorudur.
    **
    Apache Spark: Büyük ölçekli veri analizi uygulamalarını çalıştırmak için kullanılan açık kaynaklı bir paralel işleme çerçevesidir.
    ***Google Pregel:
    Büyük ölçekli grafiklerin işlenmesini kolaylaştıran bir Google sistemi.
    ****
    Google Dremel: Büyük veri kümelerini etkileşimli olarak sorgulamak için Google’da geliştirilmiş dağıtılmış bir sistemdir.
    Elastic Search Kurucular: Elastic NV
    Apache Spark Kurucular: Matei Zaharia
    Google Pregel Kurucular: Google Developers
    Google Dremel Kurucular: Google Developers

2011

  • Apache Storm* oluşturuldu ve yayınlandı.
  • Apache Hadoop YARN** oluşturuldu ve yayınlandı.
  • *Apache Storm: Ücretsiz ve açık kaynak kodlu dağıtılmış gerçek zaman hesaplama sistemidir.
    **Apache Hadoop YARN: Veri kümelerindeki bilgi işlem kaynaklarını yönetmekten ve bunları kullanıcıların uygulamalarını zamanlamak için kullanmaktan sorumlu bir platformdur.
    Apache Storm Kurucular: Backtype, Twitter
    Apache Hadoop YARN Kurucular: Apache Software Foundation

2012

  • Apache Giraph* oluşturuldu ve yayınlandı.
  • Apache Cloudera Impala** oluşturuldu ve yayınlandı.
  • *Apache Giraph: Büyük veriler üzerinde grafik işleme gerçekleştirmek için geliştirilmiş bir projedir.
    **Apache Cloudera Impala: Sistem üzerinde depolanan veriler için açık kaynaklı bir toplu paralel işleme gerçekleştiren sorgu motorudur.
    Apache Giraph Kurucular: Apache Software Foundation
    Apache Cloudera Impala Kurucalar: Apache Software Foundation

2013

  • Lambda Mimarisi* ilk resmi tanımı ortaya çıktı.
  • *Lambda Mimarisi: Verilerin işlenmesi için geliştirilmiş bir mimari yaklaşımdır.
    Lamda Mimarisi Kurucular (Öncü): Nathan Marz

2015

  • Kaynaklar üzerinde Lambda Mimarisi ilk resmi tanımı ortaya çıktı.
  • Kaynaklar Üzerinde Lamda Mimarisi Resmi Tanımı Öncüsü: Nathan Marz

olarak Büyük Veri tarihsel serüveni baz alınmaktadır.

Büyük Verinin Özellikleri

Büyük Veri’ye ait terminolojik tanım ve tarihsel süreci ele aldıktan sonra yapısal özelliklerini dile getirelim.
Büyük Veri’ye ait bileşenleri.

Literatürde kimi araştırmacılar bu bileşenleri 3Vs üzerinden (Volume-Velocity-Variety 3Vs) kimileri ise 3Vs+ üzerinden (Volume-Velocity-Variety-Verification-Value) değerlendirmektedir.

Kısaca Büyük Veri’ye ait bu özelliklere değinecek olursak;

  • Veri Büyüklüğü (Volumes): Katlanarak büyüyen verinin kapladığı alan olarak nitelendirilmektedir.
  • Veri Hızı (Velocity): Verinin üretilme/büyüme hızı olarak nitelendirilmektedir.
  • Veri Çeşitliliği (Variety): Hızla katlanarak büyüyen verinin tür bakımından çeşitliliği olarak nitelendirilmektedir.
  • Veri Doğrulaması (Verification): Hızla katlanarak büyüyen ve çeşitli türler içeren verinin nitelik bakımından güvenliliği/güvenilirliği olarak nitelendirilmektedir.
  • Veri Değeri (Value): Verinin tüm işlemlerden geçip ilgili kazanıma yönelik oluşturmuş olduğu katma değer olarak nitelendirilmektedir.

olarak ele alınamktadır.

Terminolojik, tarihsel ve niteliksel olarak ele aldıktan sonra Büyük Veri’nin etkileşimde bulunduğu bazı trendleri (Sürekli dilimizde dolanan) kısaca dile getirelim;

Büyük Veri Trendleri

Büyük Veri tarihsel süreci incelendiğinde katlanarak büyüyen ve karşı konulamaz bir akımın ortaya çıktığı gözler önüne serilmektedir.

Bu akım, beraberinde farklı alanlarla etkileşimde bulunarak yeni trendeler ortaya çıkarmıştır.
Bunlardan sadece özetle birkaçını dile getirecek olursak;

  • Büyük Veri Dahilinde Araçlarının Evrimi; hızla büyüyen Büyük Veri faaliyetleri donanımsal ve yazılımsal olarak bazı ihtiyaçları beraberinde getirmiştir.Gelişen faaliyetler çeşitli destekleyici yazılımların oluşturulmasına ve nitelikli donanımların üretilmesine bir nebze sebeb olmuş ve olmaktadır.
    Elbette ki düşünüldüğünde ilerleyen bu evrimsel süreç daha etkili bir şekilde birçok yeniliği beraberinde getirecektir.
  • Büyük Veri Faaliyetlerinde Bulut Bilişim Teknolojileri; son zamanlarda elde edilen verilerin boyut, çeşitlilik ve karmaşıklık anlamında sürekli büyümesi ve büyümeye devam edecek olması, büyük veri faaliyetleri üzerinde yer alan depolama ve anlık işleme problemlerinin Bulut Bilişim (Cloud Computing) ile birlikte bir çözüm odağı haline gelmesini ve çeşitli çözümlerinin gelişmesini sağlamaktadır.
  • Büyük Veri Faaliyetlerinde Nesnelerin İnterneti; insanların çeşitli ihtiyaçlarından yola çıkarak ortaya atılmış ve geliştirilmiş Nesnelerin İnterneti (Internet of Things — IOT) veri üretimi ve analizinde oldukça büyük çaplı ve nitelikli destekler sağlamaktadır.Sürekli artan makineleşmiş çözümler ile doğal eylem neticesinde sonuçlara dayalı veri kazanımı sayesinde örüntüsel olarak yeni bağlar ortaya çıkarmaktadır.
  • Büyük Veri Faaliyetlerinde Yapay Zeka ve Makine Öğrenmesi; teknoljik araçların ve çözümlerin gelişmesi ile popüler olarak yaygınlaşan Yapay Zeka (Artificial IntelligenceAI) ve Makine Öğrenmesi (Machine LearningML) alanları/metodolojileri ile, büyüyen Büyük Veri kaynakları tamamen ayrılmaz ve birbirilerini destekleyici nitelikteki analitik ekosisteme dönüşmüştür.Elde edilen verilerin nitelik bakımından uygulanabilirliği bu alanlar ile gerçekleşirken (net olarak) bu alanlara olan ihtiyaçta Büyük Veri faaliyetlerinin gelişmesi ve desteklenmesini sağlamaktadır.

Büyük Veri Üzerine Yöntemsel Kaynak Önerileri

Hızla gelişen Büyük Veri faaliyetlerine analitik odaklı giriş yapmadan önce;

  • Büyük Veri faaliyetlerinin ne olduğunu,
  • Büyük Veri faaliyetleri ile kurumsal rekabetlerin nasıl planlanabileceğini,
  • Büyük Veri faaliyetleri üzerindeki sektörel yaklaşımların ne olduğunu,
  • Büyük Veri faaliyetlerine global ölçekteki firmaların bakış açılarını ve nasıl kullandığını,
  • Büyük Veri faaliyetlerindeki geleceğin nasıl olacağı öngörülerini

yönelik yanıt alabileceğiniz kitap örneklerini paylaşmak istedim.

Nitelik olarak ilgili kitaplar teknik yön kapsamından bir nebze uzak fakat süreç planlanması konusunda başucu niteliğinde yer almaktadır.

Big Data Work — Türk Hava Yolları Yayınları / Thomas H. Daveport

Büyük Veri İş Başında / Bernard Marr

Bilginin Gücü Yolculuk Devam Ediyor / Halil Aksu

Veriye Dayalı Rekabet / Thomas H. Davenport & Jeanne G. Harris

Tüm stratejik teknoloji trendlerinde olduğu gibi Büyük Veri; kendisini belirleyen son derece özelleşmiş özellikleri
ve içten içe evrimleşmiş çözümleri ile geleceğin yapı taşlarını oluşturmaktadır.

Büyük Veri’ye dair Thomas Hayes Davenport herşeyi özetlercesine;

Önemli olan verinin hacmiyle büyülenmek değil; onu analiz edebilmek onu içgörü, inovasyon ve işletme değerine çevirebilmektir.

sözü ile konuyu en temel amaca bağlamaktadır.

Fayda edinimi.

Bu bölümde genel manada Büyük Veri‘nin tanımı, özellikleri ve tarihsel gelişimini ele almaya çalıştım.
Gelecek yazımda Büyük Veri çalışmaları üzerinde kullanılan popüler araçlara ve teknolojilere değinmeye çalışacağım.

İyi günler, iyi çalışmalar…

Sign up to discover human stories that deepen your understanding of the world.

Free

Distraction-free reading. No ads.

Organize your knowledge with lists and highlights.

Tell your story. Find your audience.

Membership

Read member-only stories

Support writers you read most

Earn money for your writing

Listen to audio narrations

Read offline with the Medium app

Mirac Öztürk
Mirac Öztürk

Written by Mirac Öztürk

Data Scientist + Mathematician / Coder — Gamer miracozturk.com

No responses yet

Write a response