09 Mar

Sphinx?in Ayarlanması ve Kullanımı

Önceki yazılarda sphinxin ne olduğunu açıklamaya çalışmıştım. Kısaca özet geçmek gerekirse, sphinx, bağımsız çalışan bir arama motorudur. Çok fazla veri içeren veritabanbları için , hızlı ve kolay, metin bazlı arama yapabilmek için kullanılabilecek bir uygulamadır.

Sphinxi paylaşımlı hostinglerde kullanabilmek pek mümkün olmaz sanırım. Çünkü sphinxi kullanabilmek için, sphinx sunucusu ve phpye has sphinx eklentisini kurmak gereklidir. Bunların haricinde, arama sunucusunun belirli aralıklarla çalışarak verileri yeniden indekslemesi gerekmektedir. Tüm bu ve buna benzer durumlardan ötürü, sphinxi sadece kendinizin yönetebildiği sunucularda kullanabileceğinizi unutmayın.

Şimdi gelelim sphinxin nasıl kullanılacağına. Bunun için sphinx ile birlikte gelen örnek veritabanını ve konfigürasyon dosyalarını kullanacağım.

Kurulumu tamamladıktan sonra, kurulum yaptığınız dizin altında bulunan etc kalsöründe (kendi bilgisayarımda sphinxi /opt/sphinx altına kurduğum için, /opt/sphinx/etc dizinini kullanacağım) bulunan example.sql dosyasını açarak başına kullanmak istediğimiz veritabanını ekleyelim:

CREATE DATABASE IF NOT EXISTS test;
use test;

Sonrasında :

1
mysql -u kullanici_adi -psifre<example.sql

komutunu çalıştırarak örnek veritabanını oluşturuyoruz. Bir sonraki adım ayar dosyasını oluştrumak. Yine aynı klasörde bulunan (/opt/sphinx/etc) sphinx.conf.dist sphinx-min.conf.dist dosyaları ile, tüm ayarları sıfırdan yapmak yerine. Varsayılan olarak gelen ayarları kullanıp veya düzenleyebiliriz. Varsayılan ayarlar her zaman işimize yaramaz, ama kendisi ile gelen örnek veritabanı ile uyumlu. Çok fazla karmaşaya sebep olmamak için en basit ve kısa olan ayarını kullanacağım :

1
sudo cp sphinx-min.conf.dist sphinx-test.conf

Yukarıdaki komutu çalıştırdığımızda, birlikte gelen ayar dosyalarından, sphinxin çalışabilmesi için gerekli olan minimum ayarların bulunduğu dosyayı, kendi ihtiyaçlarımız için düzenleyebileceğimiz ayrı bir dosya olarak kaydettim. sphinx-test.conf dosyasının içeriği aşağıdaki gibidir: (sphinx verisyonuna göre değişiklik gösterebilir)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
#
# Minimal Sphinx configuration sample (clean, simple, functional)
#

source src1
{
   type        = mysql

   sql_host    = localhost
   sql_user    = test
   sql_pass    =
   sql_db         = test
   sql_port    = 3306   # optional, default is 3306

   sql_query      = \
      SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content \
      FROM documents

   sql_attr_uint     = group_id
   sql_attr_timestamp   = date_added

   sql_query_info    = SELECT * FROM documents WHERE id=$id
}


index test1
{
   source         = src1
   path        = /opt/sphinx/var/data/test1
   docinfo        = extern
   charset_type      = sbcs
}


index testrt
{
   type        = rt
   rt_mem_limit      = 32M

   path        = /opt/sphinx/var/data/testrt
   charset_type      = utf-8

   rt_field    = title
   rt_field    = content
   rt_attr_uint      = gid
}


indexer
{
   mem_limit      = 32M
}


searchd
{
   listen         = 9312
   listen         = 9306:mysql41
   log         = /opt/sphinx/var/log/searchd.log
   query_log      = /opt/sphinx/var/log/query.log
   read_timeout      = 5
   max_children      = 30
   pid_file    = /opt/sphinx/var/log/searchd.pid
   max_matches    = 1000
   seamless_rotate      = 1
   preopen_indexes      = 0
   unlink_old     = 1
   workers        = threads # for RT to work
}

Sphinxi hızlıca ayarlayabilmek için yapmanız gereken, bir source, bir index ve searchd ayarının tanımlı olması gerekiyor.

source : Arama yapılmasını istediğnizi veritabanına ve tabloya yapılacak bağlantı ve sorgunun tanımlaması burada yapılır. Sphinx bu ayar yardımı ile , veritabanına bağlanır, ilgili tabloadan verileri çeker ve indexler. Böylece sphinxe bir arama sorgusu gönderdiğinizde size sonuç döndürebilir. Burada veritabanına bağlanmak için gerekli parametrelerin nasıl verilmesi gerektiğini açıklamama grek yok sanırım. Ayar anahtarları gayet açıklayıcı duruyor. Ayar dosyası içeirisinde birden fazla source tanımlanabilir.

Burda üstünde duracağım ayar anahtarı “sql_query”. Buraya, indekslenmesini istediğiniz verileri elde edebileceğiniz sorguyu yazmalısınız. Sphinxin size dayattığı en belirgin kural, bu sql sorgusunun en az bir “id” alanı içermesidir. Bunun haricinde SQLinizi istediğiniz gibi yazabilirsiniz.

Sphinx ayar dosyasında mutlaka dikkat etmeniz gereken bir diğer husus ise, yeni bir satıra geçmek istiyorsanız satır bitimine \ karakteri eklemeniz gerektiğidir. Eğer buna dikkat etmezseniz sphinx ayar dosyasını ayrıştırıken hata verecek ve çalışmayı durduracaktır.

sql_attr_ ile başlayan ayar anahtarı, aramanız üzerinde filtreleme yapabilmeniz için kullanabileceğiniz alanları tanımlamanızı sağlar. Bu tanımlamalar, sorgu yaptığınız tablo üzerindeki alanlardan biri olmalıdır. sql_attr_ den sonra, ilgili alanın tipini belirtmelisiniz ( örneğin sql_attr_timestamp = date_added , sorgu yaptığınız tablo üzerinde timestamp tipinde date_added alanını temsil eder). Daha fazla ayrıntı için sphinx dökümantasyonunda “Data source configuration options” başlığına bakınız.

sql_query_info yu es geçebilirsiniz.

index : Bu başlıkta , sphinxin verileri nasıl indekslemesi gerektiği belirtilir. Ayar dosyası içerisinde birden faxla index başlığı olabilir ve bu index başlıklarını kod tarafında arama yaparken seçebilir ve istediğiniz indeks üzerinde arama yaptırabilirsiniz. Ayar dosyasında mutlaka bir index olmak zorundadır. index bir source a sahip olmalıdır. “index test1” başlığı altında tanımlanmış örnekte görüldüğü gibi , bir source tanımlanmış, index verilerilerinin nerede saklanması gerektiği belirtlimiş (path= /opt/sphinx/var/data/test1). docinfo ve charset_type ı es geçiyorum, bunlarla ilgili daha fazla bilgiyi sphinx dökümantasyonunda bulabilirsiniz. Basit bir ayar için belirttiğim iki anahtar yeterlidir. searchd de bulunan ayarları değiştirmenize gerek yok şimdilik.

Yukarıdaki ayar dosyasında gerekli ayarları yaptıktan sonra, sphinxin gerekli dataları oluşturmasını sağlamaktır. Bunun için:

1
sudo /opt/sphinx/bin/indexer --all --config /opt/sphinx/etc/sphinx-test.conf

Yukarıdaki kod ile, ayar dosyamızdaki direktiflere göre veriler indexlenecek. Eğer bir problem olmaz ise, aşağıdaki gibi bir çıktı alırsınız :

1
2
3
4
5
6
7
8
9
10
11
12
13
Sphinx 1.11-dev (r2709)
Copyright (c) 2001-2011, Andrew Aksyonoff
Copyright (c) 2008-2011, Sphinx Technologies Inc (http://sphinxsearch.com)

using config file '/opt/sphinx/etc/sphinx-test.conf'...
indexing index 'test1'...
collected 4 docs, 0.0 MB
sorted 0.0 Mhits, 100.0% done
total 4 docs, 193 bytes
total 0.036 sec, 5290 bytes/sec, 109.64 docs/sec
skipping non-plain index 'testrt'...
total 3 reads, 0.000 sec, 0.1 kb/call avg, 0.0 msec/call avg
total 9 writes, 0.000 sec, 0.1 kb/call avg, 0.0 msec/call avg

Örnek veritabanında çok fazla veri olmadığı için indeksleme işlemi çok kısa sürede tamamlandı. Şimdi sıra geldi arama sunucusunu çalıştırmaya :

1
sudo /opt/sphinx/bin/searchd --config /opt/sphinx/etc/sphinx-test.conf

Bunu çalıştırdığınızda aşağıdakine benzer bir sonuç alırsınız :

1
2
3
4
5
6
7
8
9
10
Sphinx 1.11-dev (r2709)
Copyright (c) 2001-2011, Andrew Aksyonoff
Copyright (c) 2008-2011, Sphinx Technologies Inc (http://sphinxsearch.com)

using config file '/opt/sphinx/etc/sphinx-test.conf'...
listening on all interfaces, port=9312
listening on all interfaces, port=9306
precaching index 'test1'
precaching index 'testrt'                                  
precached 2 indexes in 0.001 sec

Yukarıda çalıştırmış olduğumuz kod, arama sunucumuzun çalışmasını sağlar, böylece bizde arama sunucusuna sorgu göndererek arama işlemini gerçekleştirebiliriz.

Sphinx sunucumuzu ayarlayıp çalıştırmış olduk. Burda bahsettiğim /opt/sphinx klasörü kendi bilgisayarıma özgü bir yoldur. Siz nereye kurulum yaptı iseniz o dizini referans alınız.

Şimdi sphinxi ayarladık ve çalıştırdık, bitti mi ? Tam olarak bitti denemez, veritabanınıza sürekli veri ekleneceği için sphinx indekslerinin yenilenmesi gerekir. Bunun için de belirli aralıklarla :

1
/opt/sphinx/bin/indexer --all --rotate --config /opt/sphinx/etc/sphinx-test.conf

bu kodun çalışması gerekmektedir. Bu kod, indekslerin yenilenmesini sağlar. Bunu bir cron job olarak çalıştırabilirsiniz. Bu işlemin sıklığı ihtiyaçlarınıza göre değişir. Günde bir defa da yaptırabilirsiniz, dakikada bir de yaptırabilirsiniz. Bu tamamen size kalmış ( veritabanın büyüklüğü de rol oynuyor tabiki). Eğer yeniden indeksleme yapmazsanız, yeni girilen kayıtlar arama sonuçlarında çıkmaz.

Sunucunuzu ayarlayıp çalıştırdıktan sonra, buradaki örnekte olduğu gibi arama işlemi yapabilirsiniz.

Sphinx, çok fazla ayrıntıya sahip olan bir arama motoru sunucusudur. Burda aktarmaya çalıştıklarımdan daha fazlasını sphinx dökümantasyonunda bulabilirsiniz. Gayet anlaşılabilir bir dil ile örnekleyerek anlatmakta.

Bu seriye ait diğer yazılar :

Metin Bazlı Arama – Site İçi Arama Motoru
Aramanın Yapılması – Site İçi Arama Motoru
Sphinx nedir ?
Sphinx Kurulumu
Sphinx?in Ayarlanması ve Kullanımı

09 Feb

Sphinx nedir ?

MySQL 5.0 sürümünden itibaren güzel bir özellik sundu : fulltext search. Bu özellik sayesinde, veritabanındaki bir tablonun,istenilen alanları (fulltext indeksi eklenmiş alanlar) üzerinde metin bazlı arama yapabiliyoruz.

Fulltext search sadece MyISAM tipindeki tablolar üzerinde çalışabilmekte. Ayrıca çok da performanslı olduğu söylenemez.

Performans haricinde arama sırasında da çok da esnek olmayan bir yapısı var.

İşte burada Search Engine Server ( Arama motoru sunucusu) devreye giriyor.

Bu arama motrolarının yaptığı şey, veritabanından bağımsız çalışarak, verilerin, veritabanından belirli aralıklarda çekilerek indekslenmesi. Sonrasında da kendine gelen arama sorguları esnasında, indekslenmiş kayıtlar içerisinden sonucu kısa sürede vermek.

MySQL Fulltext Search de süreç şu şekilde olur:

Fulltext indeksi eklenmiş tablodaki alan üzerinde sorgu çalıştırılır :
SELECT * FROM articles
-> WHERE MATCH (title,body) AGAINST (‘database’);
Çıkan sonuçlar direkt olarak kullanılır.

Arama motoru sunucusundaki süreç de şöyle işler :

– Arama motoruna bağlatı yapılır
– Aranan kelime iletilir
– Aranan kelimenin bulunduğu kayıtların ID lerinin bulunduğu sonuçlar geri döndrülür
– Arama motoru sonuçları (eğer sonuç döndüyse) ayıklanarak veritabanından ilgili kayıtlar ID lerine göre çekilir.

Arama motoru ile ilgili işlem adımları daha çok görünse de,mysql fulltext search den daha hızlı sonuç alabilmekteyiz.

Burda bilinmesi gereken bir şey daha var, arama motoru sunucsu belirli aralıklarla veritabanına bağlanarak verileri yeniden indekslemek zorundadır. Yani üzerinde arama yapılan tabloya yeni veriler girilmiş veya mevcut veriler değişitirilmiş ya da silinmiş olabilir. İşte bu yüzden bir cron job ile , arama motorunun yeniden indeksleme yapması sağlanmalıdır. Bu indeksleme ve yeniden indeksleme ile ilgili konuya bir sonraki yazıda değinmeye çalışacağım.

Konumuzun başlığını oluşturan “Sphinx nedir” in cevabı: Yukarıda değinildiği gibi, veritabanından bağımsız olarak çalışarak, veritabanından çektiği verileri indeksleyen, sonrasında arama sorgularına cevap veren bir arama motoru sunucusudur. Sphinxin indeksleme yapabilmesi için tablo yapısının (MyISAM, InnodDB vb) önemi yoktur. Ayrıca dökümantasyonunda yazdıklarına göre, sadece MySQL için değil, PostgreSQL için de desteği mevcut..

Bu seriye ait diğer yazılar :

Metin Bazlı Arama ? Site İçi Arama Motoru
Aramanın Yapılması ? Site İçi Arama Motoru
Sphinx nedir ?
Sphinx Kurulumu
Sphinx’in Ayarlanması ve Kullanımı

22 Jan

Sphinx Kurulumu

Sphinx kurulumu için aşağıdaki adımları takip etmek gerekiyor. Öncelikle adımları yazıyorum, sonra bunları açıklamaya çalışacağım :

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
mkdir sphinx-base
cd sphinx-base
wget http://pecl.php.net/get/sphinx -o /dev/null -O  sphinx.tar.gz
svn checkout http://sphinxsearch.googlecode.com/svn/trunk
cd trunk/api/libsphinxclient/
./configure --prefix=/usr/local
make
make install
cd ~/sphinx-base
tar -zxvf sphinx.tar.gz
cd sphinx-1.1.0/
phpize
/configure --prefix=/usr/local --with-sphinx
make
make install
nano /etc/php5/conf.d/sphinx.ini
extension=sphinx.so
cd ~/sphinx-base/trunk
configure --prefix=/usr/local
make
make install

(1-2) İndirdiğimiz dosyaların derli toplu olabilmesi için bir dizin oluşturdum, bu dizini home klasörümde oluşturdum. Siz de aynı şekilde home dizininizde sphinx-base diye bir klasör oluşturursanız , burdaki örneğin çalışabilmesi mümkün olur. Klasörü oluşturduktan sonra klasöre giriyoruz

(3-4) PHP sphinx eklentisini, sonrasında da sphinx kodlarını sitelerinden indiriyoruz

(5-6-7-8) PHP eklentimizin çalışabilmesi için, libsphinxclient kütüphanesine ihityaç var. Bu yüzden öncelikle bunu derliyoruz.

(9-10-11-12-13-14-15-16-17) Bu uzun adımlarda da php eklentisini derliyoruz.

(18-19-20-21) Bu adımlarda da sphinxi derliyoruz.

Yuakrıdaki adımlarda mutlaka dikkat etmeniz gereken şeyler var. Bunlardan ilki, yukarıda belirttiğim gibi home klasörünüzde sphinx-base diye bir klasör
oluştrumuş olmanız gerekli.
Anlattığım tarih ititbari ile, php sitesinden indirdiğim (3) dosyayı indirememiş olabilirsiniz. Dosyanın doğru yolunu bularak sphinx-base klasöürne indirin ve yukarıda belirttiğim şekilde (10) sphinx-base klasörü içerisine açın. İndirdiğim versiyondaki klasör ismi sphinx-1.1.0 . Sizin edindiğiniz dosyanın ismi farklı olabilir, bu yüzden 11. adımda doğru klasöre giriş yapmalısınız.

Sisteminizde, derlemeler için gerekli kütüphaneler mevcutsa, kurulumu sorunsuz olarak tamamlanacaktır. Bir sonraki yazıda, sphinx ile gelen örnek veritabanı ve örnek ayarlar ile basit bir örnek kod ekleyeceğim.

Bu seriye ait diğer yazılar :

Metin Bazlı Arama ? Site İçi Arama Motoru
Aramanın Yapılması ? Site İçi Arama Motoru
Sphinx nedir ?
Sphinx Kurulumu
Sphinx’in Ayarlanması ve Kullanımı

22 Jan

Metin Bazlı Arama – Site İçi Arama Motoru

Aslında burda anlatmaya çalışacağım şey, bir site içi arama motorunun nasıl oluşturulcağından öte, bu iş için kullanılabilecek, metin bazlı bir arama motorunu (Sphinx) anlatmak.

Basit anlamda bir site içi arama motoru, site içerisine eklenmiş bütün metinleri arayabilecek bir SQL sorgusu ile yapılır. Bunun için basit SQL ler veya daha iyi sonuç alabilmek için kompleks SQL lerde kullanılabilir.

Ama ne yazık ki, başarılı bir metin bazlı arama için bunlar yetmiyor. Arama yapacak tablo veya tabloların boyutu arttıkça sorgularımızın yavaş çalışması kaçınılmaz olacak. İşte burda devreye metin bazlı arama motorları devreye giriyor.

Bu arama motorları, kullanılan veritabanlarından bağımsız olarak çalışarak, istenilen tablo veya tablolardan metinlerin alınıp indekslenmesi ile, daha hızlı ve daha başarılı arama sonuçları alınmasını sağlıyor.

Açık kaynak kodlu ve ücretsiz bazı arama motorları şunlar :

DataparkSearch
Ferret
Ht-//Dig
Hyper Estraier
Lemur/Indri
Lucene
mnoGoSearch
Sphinx
Swish-e
Xapian

Bunlardan sadece Sphinx ve Lucene’i inceleme fırsatı bulabildim. Lucene in dağıtık sistemler için uygun olmaması ve (benim için) anlaşılması zor bir yapısı olması sebebi ile Sphinx ile çalışmalarıma devam ettim. Sphinx iyi bir dökümantasyona sahip, kolayca kurup ayarlama yapabiliyorsunuz.

Normalde öncelikle kurulumundan başlayarak anlatmam gerekirdi, ama bu sefer tersinden anlatmaya çalışacağım :

– Aramanın yapılması
– İstemcinin kurulması
– Sunucunun kurulması ve yapılandırılması

şeklinde anlatmaya çalışacağım.

Sphinxin PHP için hazırlanmış bir eklentisi mevcut, eklenti kurmak istemiyorsanız, Sphinx işlemlerini yapabilmek için hazırlanmış hazır bir sınıf da mevcut. Ben eklentiyi kullanmayı tercih ediyorum, ama eklentinin kurulmasının mümkün olmadığı zamanlarda bu sınıf iyi bir çözüm olabilir.

Burda eklentiyi baz alarak anlatacağım, bu yüzden burda yazdığım kodlar ile API classını kullanırken hata alırsanız, bunun API classından kaynaklanabileceğini unutmayın. Böyle bir ihtimal düşük olmakla birlikte belirtmekte fayda var.

Bu seriye ait diğer yazılar :
Metin Bazlı Arama ? Site İçi Arama Motoru
Aramanın Yapılması ? Site İçi Arama Motoru
Sphinx nedir ?
Sphinx Kurulumu
Sphinx’in Ayarlanması ve Kullanımı