Rozbieżność w wynikach analizy różnych CAT-ów Auteur du fil: Magdalena Szewciów
|
Na prośbę zleceniodawcy, w celu weryfikacji wyników otrzymanych przez biuro, przeprowadziłam Wordfastem analizę otrzymanego tekstu w Wordfaście. Otrzymałam 12% powtórzeń (repetitions). Jakież było moje zdziwienie, gdy otrzymałam skonsternowany mail od biura, że im w MemoQ wyszło ok. 5%. Z ciekawości wrzuciłam ten sam tekst do Tradosa Studio 2009 i co? 5,8% powtórzeń.
Co jest grane?
Wrzucam to zapytanie na naszą polską listę, ponieważ IMO nie jest to kwest... See more Na prośbę zleceniodawcy, w celu weryfikacji wyników otrzymanych przez biuro, przeprowadziłam Wordfastem analizę otrzymanego tekstu w Wordfaście. Otrzymałam 12% powtórzeń (repetitions). Jakież było moje zdziwienie, gdy otrzymałam skonsternowany mail od biura, że im w MemoQ wyszło ok. 5%. Z ciekawości wrzuciłam ten sam tekst do Tradosa Studio 2009 i co? 5,8% powtórzeń.
Co jest grane?
Wrzucam to zapytanie na naszą polską listę, ponieważ IMO nie jest to kwestia problemu z żadnym konkretnym CAT-em, a ponadto wiem, że wśród nas (polskojęzycznych użytkowników) jest wiele osób, które na pewno powiedzą mi coś ciekawego na powyższy temat.
Zdaję sobie sprawę, że w zależności od CAT-a możemy otrzymać NIECO inne wyniki, ale w moim tekście było 30 000 słów, stąd marne 6% różnicy ma duże znaczenie (finansowe oczywiście).
Będę wdzięczna za wszelkie uwagi czy ew. dyskusję na powyższy temat.
 ▲ Collapse | | | Jestem nieufna | Jun 16, 2010 |
Dlatego ja podchodzę z dużą nieufnością do takich analiz, wolę rozliczać się wg stron, a jak na oko widać dużo powtórzeń, to przecież można nieco obniżyć stawkę za stronę. A tak to bywa, że mimo "wirtualnych powtórzeń" roboty wcale nie jest mniej niż "normalnie", a przynajmniej nie o tyle mniej, by godzić się na obniżone stawki za słowo w przypadku matches. Czasem jest tak, że np. 100% powtórzeń jest 40%, ale nie są to powtórzenia segmentów, lecz słów. Tak mi ... See more Dlatego ja podchodzę z dużą nieufnością do takich analiz, wolę rozliczać się wg stron, a jak na oko widać dużo powtórzeń, to przecież można nieco obniżyć stawkę za stronę. A tak to bywa, że mimo "wirtualnych powtórzeń" roboty wcale nie jest mniej niż "normalnie", a przynajmniej nie o tyle mniej, by godzić się na obniżone stawki za słowo w przypadku matches. Czasem jest tak, że np. 100% powtórzeń jest 40%, ale nie są to powtórzenia segmentów, lecz słów. Tak mi z tych analiz wynika, choć mogę się mylić. Tak czy inaczej zwykła praktyka nauczyła mnie nieufności wobec tych analiz.
[Zmieniono 2010-06-16 16:37 GMT] ▲ Collapse | | | Programy myślą różnie | Jun 16, 2010 |
Magdalena Szewciów wrote:
Co jest grane?
Różne programy różnie określają, jak bardzo jednostki są powtórzone, a dopiero takie ułamki są zliczane. Widać Wordfast liczy więcej powtórzeń jako pełne, a MemQ i Trados bardziej się rozdrabniają. Po zsumowaniu wychodzą różnice. (IBM TM powiedziałby pewnie, że powtórzeń było 2% ). | | | Obsługa znaczników... | Jun 17, 2010 |
Andrzej Sawicki wrote:
Magdalena Szewciów wrote:
Co jest grane?
Różne programy różnie określają, jak bardzo jednostki są powtórzone, a dopiero takie ułamki są zliczane. Widać Wordfast liczy więcej powtórzeń jako pełne, a MemQ i Trados bardziej się rozdrabniają. Po zsumowaniu wychodzą różnice. (IBM TM powiedziałby pewnie, że powtórzeń było 2%  ).
Może to być np. sprawa obsługi znaczników.
Np. dla DVX, który znaczniki obsługuje w sposób kompletnie abstrakcyjny, zdania:
Ala ma kota.
Ala ma kota.
Ala ma kota.
dają idealne powtórzenia (100% zgodność), a dla memoka czy Tradosa będzie to w tym przypadku domyślnie 99%, bo interpretowane formatowanie jest różne.
Przykład z głowy dla RTF.
W zależności od typu plików i znaczników wyniki mogą być różne.
Zasada jest prosta.
Do rozliczeń liczymy zawsze w programie, którego wymaga klient.
A to, co wymiauczy nasz ulubiony kotek, to nasze 
Dlatego uwielbiam biura, które ślepo wierzą w Tradosa 
Zdrówkot, właśnie łączący taśmowo segmenty między akapitami 
GG
[Edited at 2010-06-17 11:35 GMT] | |
|
|
Liza Trojan Pologne Local time: 04:20 anglais vers polonais + ... rozbieżność w tradosie | Jun 17, 2010 |
Mam problem z rozbieżnością analizy w Tradosie na różnych komputerach: te same pliki, ta sama pamięć, lecz u mnie jest ponad 6000 no match, a w biurze i u klienta ok. 800 no match, reszta to 100%. Czy mogę mieć coś źle ustawione w Workbenchu lub w komputerze? (Trados 2007) | | |
Joanna Pryga wrote:
Mam problem z rozbieżnością analizy w Tradosie na różnych komputerach: te same pliki, ta sama pamięć, lecz u mnie jest ponad 6000 no match, a w biurze i u klienta ok. 800 no match, reszta to 100%. Czy mogę mieć coś źle ustawione w Workbenchu lub w komputerze? (Trados 2007)
Project and filter settings.
Zdrówkot
GG | | |
Popieram Grzegorza - pracować możemy, w czym chcemy, ale analizę robimy zawsze w programie klienta. Najlepiej stosować stawkę za słowo/linijkę/stronę i w ogóle "nie bawić się" w różne stawki za powtórzenia i ich brak.
Poza tym znaczniki to jedna kwestia, ale z tego, co pamiętam, Magdo, to masz bardzo nisko ustawione Fuzzy w Wordfaście - moim zdaniem, gdybyś wszystkie porównywalne parametry CATów ustawiła tak samo, to znacznych różnic w analizie by nie było. | | | Wordfast Classic? | Jun 18, 2010 |
Wordfast w przykładzie z różnicami na repetycjach był tym klasycznym Wordowskim?
To bym obstawiał jakąś drobną różnicę w regułach segmentacji. Ani Trados ani SDL nie trąbił nigdy o tym specjalnie głośno, ale dla pewnych języków Workbench (nie wiem jak Studio, nie zdążyłem tego akurat sprawdzić) miał zaszytą listę skrótów z kropką, po których nie zaczynał nowego segmentu nawet jak mu reguła segmentacji kazała. W tym samym miejscu Wordfast zadziała z matematy... See more Wordfast w przykładzie z różnicami na repetycjach był tym klasycznym Wordowskim?
To bym obstawiał jakąś drobną różnicę w regułach segmentacji. Ani Trados ani SDL nie trąbił nigdy o tym specjalnie głośno, ale dla pewnych języków Workbench (nie wiem jak Studio, nie zdążyłem tego akurat sprawdzić) miał zaszytą listę skrótów z kropką, po których nie zaczynał nowego segmentu nawet jak mu reguła segmentacji kazała. W tym samym miejscu Wordfast zadziała z matematyczną precyzją i rozpocznie następny segment.
Tylko obstawiam, że tak się właśnie porobiło, bo musiałbym zobaczyć obie analizy w całości.
W ▲ Collapse | |
|
|
I jeszcze w temacie zgodności analiz | Jun 18, 2010 |
Czysto teoretycznie jest możliwość uzyskiwania zgodnych analiz w różnych programach. Muszą one jednak być zgodne ze standardem LISA GMX-V
http://www.lisa.org/Global-information-M.104.0.html
To jest chyba na razie jedyna próba zbudowania platformy pozwalającej na bezpośrednie porównanie wynik�... See more Czysto teoretycznie jest możliwość uzyskiwania zgodnych analiz w różnych programach. Muszą one jednak być zgodne ze standardem LISA GMX-V
http://www.lisa.org/Global-information-M.104.0.html
To jest chyba na razie jedyna próba zbudowania platformy pozwalającej na bezpośrednie porównanie wyników analiz różnych narzędzi. Sami producenci narzędzi wolą wykorzystywać ułomność algorytmów zaimplementowanych w Tradosie pre-2009, co skutkuje wszelkiej maści konkursami "daj nam swoje pliki, a pokażemy Ci, że nasz system wyprodukuje lepsze logi niż Trados". ▲ Collapse | | | Wyjątki w regułach segmentacji w Tradosie | Jun 19, 2010 |
Wojciech Froelich wrote:
Wordfast w przykładzie z różnicami na repetycjach był tym klasycznym Wordowskim?
To bym obstawiał jakąś drobną różnicę w regułach segmentacji. Ani Trados ani SDL nie trąbił nigdy o tym specjalnie głośno, ale dla pewnych języków Workbench (nie wiem jak Studio, nie zdążyłem tego akurat sprawdzić)
Studio też ma domyślne listy wyjątków, ale tym razem są jawne.
Swoją drogą, dla polskiego są calkiem sensowne.
miał zaszytą listę skrótów z kropką, po których nie zaczynał nowego segmentu nawet jak mu reguła segmentacji kazała. W tym samym miejscu Wordfast zadziała z matematyczną precyzją i rozpocznie następny segment.
Tylko obstawiam, że tak się właśnie porobiło, bo musiałbym zobaczyć obie analizy w całości.
Możliwe.
Ale to musiałby być dość specyficzny zestaw mocno podobnych zdań. różniących się np. tylko drugą połową lub zawierających identyczne subsegmenty między skrótami.
W "normalnych" tj. zbliżonych do chaosu warunkach różnice powinny być w granicach błędu statystycznego.
Zdrówkot
GG
[Edited at 2010-06-19 10:50 GMT] | | | Skrzywione założenia... | Jun 19, 2010 |
Wojciech Froelich wrote:
Czysto teoretycznie jest możliwość uzyskiwania zgodnych analiz w różnych programach. Muszą one jednak być zgodne ze standardem LISA GMX-V
http://www.lisa.org/Global-information-M.104.0.html
To jest chyba na razie jedyna próba zbudowania platformy pozwalającej na bezpośrednie porównanie wyników analiz różnych narzędzi.
Podejrzewam, że nikomu oprócz tłumaczy na razie to nie jest na rękę.
Monopolista nie musi i jest raczej zainteresowany w utrzymaniu status quo, ze szczególnym uwzględnieniem faworyzujących zleceniodawców (w tym siebie...) algorytmów matchingu, a depcząca mu po piętach konkurencja nie ma wyraźnej motywacji, nie mówiąc nawet o woli dogadania się.
Przy okazji, GMX-V wyraźnie mówi, że tagi itepe mają znaczenie w nakładzie pracy, co jest sprzeczne z obecną, wygodną dla zleceniodawców praktyką w branży, że za tagi się explicite nie płaci.
A tak w sumie, jak one nie mają żadnej wartości, to może powinniśmy zacząć oddawać biurom te teteiksy bez tagów 
Sami producenci narzędzi wolą wykorzystywać ułomność algorytmów zaimplementowanych w Tradosie pre-2009, co skutkuje wszelkiej maści konkursami "daj nam swoje pliki, a pokażemy Ci, że nasz system wyprodukuje lepsze logi niż Trados".
Trza było pisać porządnie i się nie podkładać 
BTW.
Różnice między DVX i Tradosem są zwykle w granicach błędu statystycznego, o ile segmenty nie są jakieś specyficzne, jak ten przykład z "Ala ma kota" powyżej.
Tylko i tak siła DVX czy MQ nie polega na "innych, lepszych" logach (to akurat mocno dyskusyjne w przypadku memoQ...), tylko na funkcjach typu AutoAssemble tj. wykorzystaniu segmentów jako susbsegmentów oraz przejrzystej i skutecznej obsłudze terminologii.
Zdrówkot
GG | | | Jaroslaw Michalak Pologne Local time: 04:20 Membre (2004) anglais vers polonais SITE LOCALIZER Schizofrenia stosowana | Jun 19, 2010 |
Grzegorz Gryc wrote:
Podejrzewam, że nikomu oprócz tłumaczy na razie to nie jest na rękę.
Ależ przecież tłumacze bronią się przed narzędziami, które pozwalałyby na wstępną ocenę rzeczywistych nakładów pracy rękami i nogami. To znaczy właściwie to by chcieli coś takiego, byleby tylko się jakiś klient o tym nie dowiedział... Ileż to razy można przeczytać nawet na tutejszych forach wykłady różnych autorytetów o straszliwej potworności, jaką jest stawka za powtórzenia.
To, że w imię wyimaginowanych korzyści ("zarobię, a się nie narobię!") tak naprawdę utrudniają sobie życie, jakoś do nich nie dociera. | | | To report site rules violations or get help, contact a site moderator: You can also contact site staff by submitting a support request » Rozbieżność w wynikach analizy różnych CAT-ów LinguaCore | AI Translation at Your Fingertips
The underlying LLM technology of LinguaCore offers AI translations of unprecedented quality. Quick and simple. Add a human linguistic review at the end for expert-level quality at a fraction of the cost and time.
More info » |
| TM-Town | Manage your TMs and Terms ... and boost your translation business
Are you ready for something fresh in the industry? TM-Town is a unique new site for you -- the freelance translator -- to store, manage and share translation memories (TMs) and glossaries...and potentially meet new clients on the basis of your prior work.
More info » |
|
| | | | X Sign in to your ProZ.com account... | | | | | |