Category Archives: Ортақ

Transcribe.kz сайтынан сапалы транскрипция алу мәселесі

Transcribe.kz сайты қазақ тіліндегі аудио мен видеоны мәтінге айналдыратын құнды құралға айналып келеді. Біздің басты мақсатымыз – транскрипция қызметінің жоғары сапасын қамтамасыз ету. Транскрипцияның дәлдігі аудионың сапасына тікелей байланысты. Біздің аудио/видеоны мәтінге айналдыратын алгоритм мінсіз емес, бірақ таза, жақсы жазылған дыбыстан ол 95% дейінгі дәлдікпен мәтін жасай алады. Біз сізге сапалы қызмет көрсету үшін қызметімізді пайдаланған кезде төмендегі нәрселерді ескерген жөн:

  1. Аудио сапасы: жоғары сапалы дыбыс (аудио/видео) транскрипция үшін өте маңызды. Жаңғырық (эхо), шу немесе клиппиң сияқты факторлар транскрипция нәтижесіне кері әсер етеді. Сондықтан жақсы транскрипция алу үшін аудиоңызды шусыз, жаңғырықсыз, таза жазуға назар аударыңыз. Мысалы, сұхбатты бастамас бұрын аудио жазып, оның сапасын сол жерде-ақ тексеріп алуға болады.
  2. Тіл мәселесі: біздің қызметіміз негізінен қазақ тілін транскрипциялауға арналғандықтан, аралас тілде жазылған аудиожазбалар транскрипцияның дәлдігіне кедергі келтіруі мүмкін. Жақсы нәтижеге қол жеткізу үшін мүмкіндігінше аудионың бір ғана тілде жазылғанын қадағалаңыз. Спикер қазақша сөйлеп келе жатып орысша сөйлеп кетсе, transcribe.kz ол сөздерді не қате таниды, не мүлде танымауы әбден мүмкін. Сондай-ақ, бұл одан кейінгі қазақша сөздерді де тануына кедерге келтіреді. Қате кеткен жерде контекст бұзылады, ал бұл жалпы транскрипцияның сапасын төмендетеді.
  3. Қабаттасу мәселесі: бір уақытта бірнеше адам сөйлесе де, транскрипцияның дәлдігі төмендеуі мүмкін. Сондықтан, спикердің сөзін бөлмеуге, қабаттаспай сөйлеуге тырысыңыз.

Transcribe.kz – жай ғана құрал емес, ол ең алдымен пайдаланушылардың кері байланысының арқасында үнемі жетілдіріліп, дамып отыратын қызмет. Сондықтан бізге сіздің осы қызмет туралы ұсыныс-пікіріңіз өте маңызды. 

Transcribe.kz сайтын таңдағаныңыз үшін және біздің өсу тарихымыздың бір бөлшегі  болғаныңыз үшін рахмет!

Transcribe.kz-тегі құпиялық және автоматтандыру туралы

Достар, transcribe.kz-ке қатысты айтып жатқан жылы лебіздеріңізге, маған аудио жіберіп, қолдау білдіріп жатқандарыңызға көп рахмет! Дәл осындай реакция күтпеген едім, шыны керек. Өте қуаныштымын!

Өздеріңізден жобаға қатысты 15-тен астам сұрақ келіп түсті. Әзірге соның бірнешеуіне жауап беріп өтейін.

Ең басты сұрақ – құпиялық туралы. Бірден айтайын, сайтқа салған аудиоларыңызды сайтымыз аудионы мәтінге айналдыру үшін қолданады, болды. Транскрипция жасалған соң аудио жойылады. Ал дайын мәтін .docx пішімінде бірден поштаға жөнелтіліп, ол да серверден жойылады.

Екінші мәселе – жобаны автоматтандыру. Сайт жұмысы толығымен автоматтандырылғанда былай болады: сіздер сайтта тіркелген соң, сайтта өз баланстарыңыз болады. Соған өзіңіз қалаған сомада ақша салып қойып, сайт қызметін қолдана бересіздер. Бұл кезде сіздер сайтқа аудионы тікелей жүктеп, дайын мәтінді бірден ала аласыздар.

Сайтты дамыту үшін әрі қарай жұмыс істеймін. Менің бағдарламашы ретінде еңбек жолым енді басталып жатыр деп түсініңіздер! Сіздер осы сайтты көбірек қолданған сайын ол одан әрі дами түседі. Бұл менің IT саласына көбірек ден қойып, ары қарай ізденуіме шабыт береді деп сенемін.

Тағы сұрақтарыңыз болса, мархабат! Міндетті түрде жауап беремін.

Transcribe.kz – қазақ тіліндегі ұзақтығы әртүрлі аудионы ~95 пайыз дәлдікпен мәтінге айналдырамыз

Жолдастар, бүгін сіздерге өзімнің жаңа жобамды таныстырғым келіп отыр. Алдымен, сілтемені сақтап алыңыздар:

https://transcribe.kz

Сайтқа кіресіз, қазақ тіліндегі аудиоңызды жүктейсіз, біршама уақыттан соң оның дайын мәтіні қолыңызға тиеді. Бұл жобам жазу-сызуға жақын адамдарға, әсіресе, журналистерге өте пайдалы деп ойлаймын. Себебі, тілшілер қауымының сұхбат мәтінін сағаттап тыңдап отырып қағазға түсіретінін көріп те, естіп те жүрмін. Журналистердің, оның ішінде жұбайымның жұмысын жеңілдету үшін осындай дүние жасап жатырмын! 😃

Бірден айтайын, бұл – әзірге бета-нұсқа. Сол себепті, мәтін аудионы сайтқа жүктеген соң бірнеше сағаттан кейін дайын болады. Аудионың бір минутын 33 теңге деп бағаладым. Мысалы, жарты сағат аудиоңыз 990 теңге болады (сайтта калькулятор бар). Сапалы транскрипт үшін 33 теңге көп емес деп ойлаймын. Айтпақшы, транскрипт сапасы жүктелетін аудионың сапасына тікелей байланысты, осыны ескеріңіздер!

Бұл – менің соңғы жеті ай бойы қатысқан “Front-End. Разработка JavaScript React ES6+” курсынан алған білімімнің жемісі. Жобам қазір MVP (minimum viable product) режимінде жұмыс істеп тұр. Мен енді осы сервисті автоматтандырып, жетілдіру үшін жұмыс істеп жүрген жайым бар. Осы бастамамды қолдап, демеп жіберіңіздер!

Қазір бір қызық нәрсе болып жатыр. Мен бұрын бұндайды байқамаппын.

Біздің медианарықта әдетте орыс тілділер бәрін дұрыс жасап, кейін қазақ тілді медиаларға қалай істеу керектігін үйрететін. Ал қазір керісінше, қазақ тілді медиалар көбіне бәрін дұрыс істеп, ал орыс тілді медиалар ілесіп келеді. Мен подкастиң туралы айтып отырмын.

Бұны қайдан байқадым? Соңғы кезде Қазнетте пайда болған подкасттардың ішінде қазақ тілді болса – оның RSS-арнасы бар, ал орыс тілділерге подкастиң технология екенін айтсаң да түсінуі, оны қабылдауы қиын болып тұр. Неге олай? Әзірге беймәлім.

Енді не істемек? Қазақстандық, бірақ орыс тілді медиаларға мән бермейін бе, әлде оларды да қолға алайын ба?

Инди-уеб

Әлгінде бір кісімен жұмыс барысында танысып, барымша подкастиңді түсіндіріп отырып, өз болашағым жайында мына бір нәрсені байқадым.

Подкастиң маманның (тіпті кез келген подкаст бастаған адамның) жеке тәуелсіздігіне апарар жолдың басы ғана екен.

  1. Оқырмандарыңыз сіздің барлық жазбаларыңызды нақты алып отырады және олар сізбен әрдайым байланыста болады. Оның 3 жолы бар: сайтқа тіке кіру арқылы; сайттың RSS-арнасына жазылу арқылы; email-таратылымыңызға жазылу арқылы.
  2. Егер подкастты жеке сайтыңыздан таратсаңыз, демек ол мазмұн толығымен сіздікі деген сөз. Ешбір корпорация оған ықпал ете алмайды, сізден басқа ешкім оны өшіре алмайды, таралуын шектей алмайды, бұғаттай алмайды (сот шешімінсіз).
  3. Сіз жеке сайтыңызда тек подкаст қана емес, КЕЗ КЕЛГЕН нәрсе жасай аласыз және оның бәрі сізге тиесілі болады. Блог, фотоальбом, видеохостиң, онлайн-курс платформасы, онлайн дүкен, жеке электрондық пошта, бәрін ашуға болады.

Бұл сол кездесу кезінде басыма бірден келген ойлар. Осы ойларым бойынша іздеу жүйесін ақтарғанда “indieweb” деген қозғалысқа тап болдым. Бұл қозғалыстың ұстанымдары менің жеке ұстанымдарыма өте жақын екен.

Енді ақырындап сол қауымдастықты зерттеп, білмегенім болса үйренемін. Нәтижелерін www.yeldar.org мекеніндегі жеке блогымда жазамын.

Айтпақшы, бұл жазба алдымен сол блогымда жарияланған, содан соң барып әлеуметтік желілерге кросспост жасап отырмын. Indieweb қағидасына 100% сәйкес.

Егер менімен бірге зерттеймін десеңіздер indieweb.org сайтында керекті ақпараттың бәрі жиналған екен.

Орыс тілі кімге тиесілі?

Осы жылы басталған Украина соғысы кезінде адамдар Ресейге қатысты нәрселерден бас тарта бастады. Соның ішіне Орыс тілі де кірді. Мен осы ағынға ілігіп орыс тілінде жариялап жүрген подкасттарымды тоқтаттым. Кейін орыс тілімен менің интеграциям тым терең екенін байқадым: ол тілді жетік білгендіктен сол тілде оқимын, жазамын, тыңдаймын. Бірден бас тарту қиын екенін түсіндім. Әсіресе мен баяғыдан тыңдайтын Орыс рок музыкасын тыңдамау қиын болды.

Содан кейін көптеген ресейлік рок-әншілер Ресейдің Украинада бастаған соғысына қарсы шыға бастады. Енді олардың музыкасын тыңдауға болады деген сөз бе? Әлде орыс тілінде болғандықтан әрі қалай cancelling мәдениетін ұстанып тыңдамау керек пе?

Осы мәселені ойлай келе мен мынандай ойға келдім:

Орыс тілі Ресейге немесе орыстарға тиесілі емес. Кез келген тіл адамзатқа ортақ.

Мысалы, Ағылшын тілін алатын болсақ. Ол тілде екінің бірі сөйлейді. 59 елдің ресми тілі. Қаншама халықаралық ұйымдар осы тілде сөйлейді. Сол елдер мен ұйымдар Ұлыбританияға тиесілі емес қой? Ағылшындар тіпті оларға тыйым да сала алмайды. Мен ағылшын тілінде сөйлесем Ұлыбританияның саясатын қолдаймын деген сөз емес қой? Дәл солай Орыс тілене келгенде осындай санатта ойлайтынымыз бұрыс іс деп білемін.