Skip to content

Commit f6d8fde

Browse files
committed
[ca] improve rules
1 parent 677af9c commit f6d8fde

File tree

12 files changed

+225
-31
lines changed

12 files changed

+225
-31
lines changed

languagetool-core/src/main/resources/org/languagetool/resource/spelling_global.txt

Lines changed: 16 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -8934,7 +8934,9 @@ Long Beach
89348934
Juan Ramón Jiménez
89358935
Enrique Menéndez Pelayo
89368936
Marcelino Menéndez Pelayo
8937+
Marcelino Menéndez y Pelayo
89378938
Menéndez Pelayo
8939+
Menéndez y Pelayo
89388940
Thomas Becket
89398941
Leopoldo Pomés
89408942
New Yorker
@@ -11282,7 +11284,6 @@ Juan Goytisolo
1128211284
Leopoldo Alas
1128311285
Manuel Fraga Iribarne
1128411286
Manuel Vázquez Montalbán
11285-
Marcelino Menéndez y Pelayo
1128611287
Miguel Illescas
1128711288
Miguel de Unamuno
1128811289
Pedro Antonio de Alarcón
@@ -28821,4 +28822,17 @@ Grace Poe
2882128822
Fidel Ramos
2882228823
Leni Robredo
2882328824
Mar Roxas
28824-
Jacques Cartier
28825+
Jacques Cartier
28826+
Jonathan Pryce
28827+
Luigi's Mansion
28828+
El Corte Inglés
28829+
Gillo Pontecorvo
28830+
Jean-Jacques Servan-Schreiber
28831+
Jean-Jacques Schreiber
28832+
Servan-Schreiber
28833+
Boris Cyrulnik
28834+
Gheorghe Gheorghiu-Dej
28835+
Gheorghiu-Dej
28836+
Joel Mokyr
28837+
Phillippe Aghion
28838+
Peter Howitt

languagetool-language-modules/ca/src/main/java/org/languagetool/language/Catalan.java

Lines changed: 3 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -387,7 +387,7 @@ public SpellingCheckRule createDefaultSpellingRule(ResourceBundle messages) thro
387387
return new MorfologikCatalanSpellerRule(messages, this, null, Collections.emptyList());
388388
}
389389

390-
private static final Pattern CA_OLD_DIACRITICS = compile(".*\\b(sóc|dóna|dónes|vénen|véns|fóra|adéu|féu|vés|contrapèl)\\b.*",Pattern.CASE_INSENSITIVE|Pattern.UNICODE_CASE);
390+
private static final Pattern CA_OLD_DIACRITICS = compile(".*\\b(sóc|dóna|dónes|vénen|véns|fóra|adéu|féu|desféu|vés|contrapèl)\\b.*",Pattern.CASE_INSENSITIVE|Pattern.UNICODE_CASE);
391391

392392
private RuleMatch adjustCatalanMatch(RuleMatch ruleMatch, Set<String> enabledRules) {
393393
String errorStr = ruleMatch.getOriginalErrorStr();
@@ -451,6 +451,7 @@ private String removeOldDiacritics(String s) {
451451
.replace("Contrapèl", "Contrapel")
452452
.replace("vés", "ves")
453453
.replace("féu", "feu")
454+
.replace("desféu", "desfeu")
454455
.replace("adéu", "adeu")
455456
.replace("dóna", "dona")
456457
.replace("dónes", "dones")
@@ -460,6 +461,7 @@ private String removeOldDiacritics(String s) {
460461
.replace("fóra", "fora")
461462
.replace("Vés", "Ves")
462463
.replace("Féu", "Feu")
464+
.replace("Desféu", "Desfeu")
463465
.replace("Adéu", "Adeu")
464466
.replace("Dóna", "Dona")
465467
.replace("Dónes", "Dones")

languagetool-language-modules/ca/src/main/java/org/languagetool/rules/ca/CatalanUnpairedBracketsRule.java

Lines changed: 4 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -61,6 +61,10 @@ protected boolean isNoException(final String tokenStr,
6161
if (i < 1) {
6262
return true;
6363
}
64+
65+
if (tokens[i].hasPosTagStartingWith("NP")) {
66+
return false;
67+
}
6468

6569
if ((tokenStr.equals("’") || tokenStr.equals("'"))
6670
&& (tokens[i].hasPosTagStartingWith("N") || tokens[i].hasPosTagStartingWith("A"))) {

languagetool-language-modules/ca/src/main/resources/org/languagetool/resource/ca/added.txt

Lines changed: 19 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -76,6 +76,7 @@ Errachidia Errachidia NPCSG00
7676
Escarré Escarré NPCNSP0
7777
Esquilache Esquilache NPCNSP0
7878
Euler Euler NPCNSP0
79+
Eumo Eumo NPCNO00
7980
Eurocòs Eurocòs NPMSO00
8081
Eurojust Eurojust NPMSO00
8182
Euromaidan Euromaidan NPCNO00
@@ -617,6 +618,8 @@ cabanyot cabanyot NCMS000
617618
cabanyots cabanyot NCMP000
618619
cacic cacic NCCS000
619620
cacics cacic NCCP000
621+
cagueta cagueta NCCS000
622+
caguetes cagueta NCCP000
620623
caixa-cobri caixa-cobri NCMS000
621624
calentonet calentonet AQ0MS0
622625
calentoneta calentonet AQ0FS0
@@ -2232,6 +2235,8 @@ maduixetes maduixeta NCFP000
22322235
maestoso maestoso NCMS000
22332236
maestoso maestoso RG
22342237
maestosos maestoso NCMP000
2238+
mafieta mafieta NCFS000
2239+
mafietes mafieta NCFP000
22352240
mafioset mafioset AQ0MS0
22362241
mafioseta mafioset AQ0FS0
22372242
mafiosetes mafioset AQ0FP0
@@ -2348,6 +2353,12 @@ neorepresentatius neorepresentatiu AQ0MP0
23482353
neorepresentativa neorepresentatiu AQ0FS0
23492354
neorepresentatives neorepresentatiu AQ0FP0
23502355
nikkei nikkei AQ0CN0
2356+
nivometeorologia nivometeorologia NCFS000
2357+
nivometeorologies nivometeorologia NCFP000
2358+
nivometeorològic nivometeorològic AQ0MS0
2359+
nivometeorològica nivometeorològic AQ0FS0
2360+
nivometeorològics nivometeorològic AQ0MP0
2361+
nivometeorològiques nivometeorològic AQ0FP0
23512362
novet novet AQ0MS0
23522363
noveta novet AQ0FS0
23532364
novetes novet AQ0FP0
@@ -2406,6 +2417,8 @@ pagesot pagesot NCMS000
24062417
pagesota pagesot NCFS000
24072418
pagesotes pagesot NCFP000
24082419
pagesots pagesot NCMP000
2420+
pagineta pagineta NCFS000
2421+
paginetes pagineta NCFP000
24092422
paleogeogràfic paleogeogràfic AQ0MS0
24102423
paleogeogràfica paleogeogràfic AQ0FS0
24112424
paleogeogràfics paleogeogràfic AQ0MP0
@@ -3728,6 +3741,10 @@ semipresidencialista semipresidencialista AQ0CS0
37283741
semipresidencialistes semipresidencialista AQ0CP0
37293742
semiproducte semiproducte NCMS000
37303743
semiproductes semiproducte NCMP000
3744+
semiruïnosa semiruïnós AQ0FS0
3745+
semiruïnoses semiruïnós AQ0FP0
3746+
semiruïnosos semiruïnós AQ0MP0
3747+
semiruïnós semiruïnós AQ0MS0
37313748
sobrecapacitat sobrecapacitat NCFS000
37323749
sobrecapacitats sobrecapacitat NCFP000
37333750
sobredit sobredit AQ0MS0
@@ -4117,6 +4134,8 @@ viatget viatget NCMS000
41174134
viatgets viatget NCMP000
41184135
vibrato vibrato NCMS000
41194136
vibratos vibrato NCMP000
4137+
victimària victimari NCFS000
4138+
victimàries victimari NCFP000
41204139
videoanalitzada videoanalitzat AQ0FS0
41214140
videoanalitzades videoanalitzat AQ0FP0
41224141
videoanalitzat videoanalitzat AQ0MS0

languagetool-language-modules/ca/src/main/resources/org/languagetool/resource/ca/disambiguation.xml

Lines changed: 10 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -9266,7 +9266,6 @@ Copyright (C) 2012 Jaume Ortolà i Font
92669266
<token postag="&pronom_feble;" postag_regexp="yes"/>
92679267
<token postag="V.[SI].*" postag_regexp="yes"/>
92689268
</antipattern>
9269-
92709269
<rule>
92719270
<pattern>
92729271
<unify>
@@ -12399,6 +12398,16 @@ Copyright (C) 2012 Jaume Ortolà i Font
1239912398
<disambig action="filter" postag="D.*"/>
1240012399
</rule>
1240112400
</rulegroup>
12401+
<rule id="es_obra" name="es obra (nome)">
12402+
<!-- en un cas extrem: es obra -> s'obre ! -->
12403+
<pattern>
12404+
<token>es</token>
12405+
<marker>
12406+
<token postag="NCFS000">obra</token>
12407+
</marker>
12408+
</pattern>
12409+
<disambig action="filter" postag="NCFS000"/>
12410+
</rule>
1240212411
<rule id="es_queda" name="es queda (verb)">
1240312412
<pattern>
1240412413
<token regexp="yes">es|se<exception scope="previous" postag="SPS00"/></token>

languagetool-language-modules/ca/src/main/resources/org/languagetool/resource/ca/entities.ent

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -9,7 +9,7 @@
99
<!ENTITY math_operators "[·\*\/\^\|~¬±×÷ϐϑϒϕϰϱϴϵ϶‖′″‴⁀⁄⁒⁺⁻⁼⁽⁾₊₋₌₍₎∀∁∂∃∄∅∆∇∈∉∊∋∌∍∎∏∐∑−∓∔∕∖∗∘∙√∛∜∝∞∟∠∡∢∣∤∥∦∧∨∩∪∫∬∭∮∯∰∱∲∳∴∵∶∷∸∹∺∻∼∽∾∿≀≁≂≃≄≅≆≇≈≉≊≋≌≍≎≏≐≑≒≓≔≕≖≗≘≙≚≛≜≝≞≟≠≡≢≣≤≥≦≧≨≩≪≫≬≭≮≯≰≱≲≳≴≵≶≷≸≹≺≻≼≽≾≿⊀⊁⊂⊃⊄⊅⊆⊇⊈⊉⊊⊋⊌⊍⊎⊏⊐⊑⊒⊓⊔⊕⊖⊗⊘⊙⊚⊛⊜⊝⊞⊟⊠⊡⊢⊣⊤⊥⊦⊧⊨⊩⊪⊫⊬⊭⊮⊯⊰⊱⊲⊳⊴⊵⊶⊷⊸⊹⊺⊻⊼⊽⊾⊿⋀⋁⋂⋃⋄⋅⋆⋇⋈⋉⋊⋋⋌⋍⋎⋏⋐⋑⋒⋓⋔⋕⋖⋗⋘⋙⋚⋛⋜⋝⋞⋟⋠⋡⋢⋣⋤⋥⋦⋧⋨⋩⋪⋫⋬⋭⋮⋯⋰⋱⋲⋳⋴⋵⋶⋷⋸⋹⋺⋻⋼⋽⋾⋿→⇋]|\=|\+">
1010
<!-- -x\. -->
1111
<!ENTITY exceptions_REQUERIMENT "TC|TSJC|TSJV|sentenciar|recurs|empara|jutge|magistrat|tribunal|juí|judici|enjudiciament|llei|compliment|demandat|judicial|jutjat|arbitral|agència|tributari|fiscal|hisenda|inspecció">
12-
<!ENTITY nom_seguit_de_nompropi "abat|adreça|associació|balneari|bar|botiga|cable|campanya|cas|casa|centre|cerveseria|comerç|cometa2|concurs|copa|coral|corrent|cursa|diari|edició|editorial|escola|estany|estil|estàndard|finca|fruiteria|IES|imperi|informe|institut|llibre|marca|mont|novel·la|obra|orquestra|pare|pel·lícula|periòdic|poble|poema|poemari|premi|profeta|programa|projecte|quadre|registre|restaurant|revista|riu|rosa|sabateria|senyor|societat|sonda|sèrie|taula|teatre|tema|tipus|ZER|opuscle|article">
12+
<!ENTITY nom_seguit_de_nompropi "blog|abat|adreça|associació|balneari|bar|botiga|cable|campanya|cas|casa|centre|cerveseria|comerç|cometa2|concurs|copa|coral|corrent|cursa|diari|edició|editorial|escola|estany|estil|estàndard|finca|fruiteria|IES|imperi|informe|institut|llibre|marca|mont|novel·la|obra|orquestra|pare|pel·lícula|periòdic|poble|poema|poemari|premi|profeta|programa|projecte|quadre|registre|restaurant|revista|riu|rosa|sabateria|senyor|societat|sonda|sèrie|taula|teatre|tema|tipus|ZER|opuscle|article">
1313
<!ENTITY english_no "ya|d|la|el|l|els|les|per|en|o|s|cu|li|ca|google|com|curs|ha|i|to|porta|portal|un|casa|varia|dor|vol|vols|al|ii|iii|iv|v|vi|vii|viii|ix|x|xi|xii|xiii|xiv|xv|xvi|xvii|xviii|xix|xx|andre|som|gi|qu|fent|sera|fa|si|ti|molt|tot|tots|pica|picas|hola|mi|con|nos|banc|que">
1414
<!--<!ENTITY english_ambiguous "video|economic|economics|families|area|areas|Africa|America|Australia|Canada|part|ambit|academic|agenda|basic|cancer|electric|electrics|electronic|electronics|sense|once|annual">
1515
necessaries -->

languagetool-language-modules/ca/src/main/resources/org/languagetool/resource/ca/multiwords.txt

Lines changed: 7 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -1,5 +1,12 @@
11
#Catalan multiwords file used for chunking
22
#separatorRegExp=[\t;]
3+
Antoni Bassas;NPMSSP0
4+
Maria Bohigas,;NPFSSP0
5+
”la Caixa”;NPFSO00
6+
cap-i-pota;NCMS000
7+
cap-i-potes;NCMP000
8+
Leticia Asenjo;NPFSSP0
9+
Leticia Asenjo Huete;NPFSSP0
310
Neus Torbisco;NPFSSP0
411
conseller segon;NCMS000
512
Heribert Mariezcurrena;NPMSSP0

languagetool-language-modules/ca/src/main/resources/org/languagetool/resource/ca/spelling.txt

Lines changed: 19 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -72,6 +72,7 @@ Errachidia
7272
Escarré
7373
Esquilache
7474
Euler
75+
Eumo
7576
Eurocòs
7677
Eurojust
7778
Euromaidan
@@ -552,6 +553,8 @@ cabanyot
552553
cabanyots
553554
cacic
554555
cacics
556+
cagueta
557+
caguetes
555558
caixa-cobri
556559
calentonet
557560
calentoneta
@@ -1935,6 +1938,8 @@ maduixeta
19351938
maduixetes
19361939
maestoso
19371940
maestosos
1941+
mafieta
1942+
mafietes
19381943
mafioset
19391944
mafioseta
19401945
mafiosetes
@@ -2051,6 +2056,12 @@ neorepresentatius
20512056
neorepresentativa
20522057
neorepresentatives
20532058
nikkei
2059+
nivometeorologia
2060+
nivometeorologies
2061+
nivometeorològic
2062+
nivometeorològica
2063+
nivometeorològics
2064+
nivometeorològiques
20542065
novet
20552066
noveta
20562067
novetes
@@ -2107,6 +2118,8 @@ pagesot
21072118
pagesota
21082119
pagesotes
21092120
pagesots
2121+
pagineta
2122+
paginetes
21102123
paleogeogràfic
21112124
paleogeogràfica
21122125
paleogeogràfics
@@ -3138,6 +3151,10 @@ semipresidencialista
31383151
semipresidencialistes
31393152
semiproducte
31403153
semiproductes
3154+
semiruïnosa
3155+
semiruïnoses
3156+
semiruïnosos
3157+
semiruïnós
31413158
sobrecapacitat
31423159
sobrecapacitats
31433160
sobredit
@@ -3479,6 +3496,8 @@ viatget
34793496
viatgets
34803497
vibrato
34813498
vibratos
3499+
victimària
3500+
victimàries
34823501
videoanalitzada
34833502
videoanalitzades
34843503
videoanalitzat

languagetool-language-modules/ca/src/main/resources/org/languagetool/rules/ca/check_case.txt

Lines changed: 3 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -2361,4 +2361,6 @@ mont del Temple
23612361
mur de les Lamentacions
23622362
mesquita d'Al-Aqsa
23632363
cúpula de la Roca
2364-
porta de la Misericòrdia
2364+
porta de la Misericòrdia
2365+
Eumo Editorial
2366+
El Corte Inglés

0 commit comments

Comments
 (0)