Skip to content

Commit 53ab426

Browse files
committed
[ca] improve rules
1 parent bff956e commit 53ab426

File tree

6 files changed

+98
-8
lines changed

6 files changed

+98
-8
lines changed

languagetool-core/src/test/java/org/languagetool/rules/WordListValidatorTest.java

Lines changed: 1 addition & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -47,6 +47,7 @@ public class WordListValidatorTest {
4747
// Words that are valid but with special characters so that we don't want to
4848
// allow them in general:
4949
private static final Set<String> VALID_WORDS = new HashSet<>(Arrays.asList(
50+
"Onești",
5051
"Karadžić",
5152
"Mladić",
5253
"Vučić",

languagetool-language-modules/ca/src/main/resources/org/languagetool/resource/ca/added.txt

Lines changed: 3 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -181,6 +181,7 @@ Narciset Narciset NPMSSP0
181181
Natanz Natanz NPCSG00
182182
Nóvgorod Nóvgorod NPCSG00
183183
OCR OCR NCMN000
184+
Onești Onești NPCSG00
184185
Oréixnik Oréixnik NPMNO00
185186
Pearce Pearce NPCNSP0
186187
Peyu Peyu NPMSSP0
@@ -2287,6 +2288,8 @@ minicrèdits minicrèdit NCMP000
22872288
miniictus miniictus NCMN000
22882289
minillenguatge minillenguatge NCMS000
22892290
minillenguatges minillenguatge NCMP000
2291+
minimaratons minimarató NCFP000
2292+
minimarató minimarató NCFS000
22902293
minisúper minisúper NCMS000
22912294
minisúpers minisúper NCMP000
22922295
minsíssim minsíssim AQAMS0

languagetool-language-modules/ca/src/main/resources/org/languagetool/resource/ca/multiwords.txt

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -1,7 +1,7 @@
11
#Catalan multiwords file used for chunking
22
#separatorRegExp=[\t;]
33
Antoni Bassas;NPMSSP0
4-
Maria Bohigas,;NPFSSP0
4+
Maria Bohigas;NPFSSP0
55
”la Caixa”;NPFSO00
66
cap-i-pota;NCMS000
77
cap-i-potes;NCMP000

languagetool-language-modules/ca/src/main/resources/org/languagetool/resource/ca/spelling.txt

Lines changed: 3 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -177,6 +177,7 @@ Narciset
177177
Natanz
178178
Nóvgorod
179179
OCR
180+
Onești
180181
Oréixnik
181182
Pearce
182183
Peyu
@@ -1990,6 +1991,8 @@ minicrèdits
19901991
miniictus
19911992
minillenguatge
19921993
minillenguatges
1994+
minimaratons
1995+
minimarató
19931996
minisúper
19941997
minisúpers
19951998
minsíssim

languagetool-language-modules/ca/src/main/resources/org/languagetool/rules/ca/grammar.xml

Lines changed: 88 additions & 6 deletions
Original file line numberDiff line numberDiff line change
@@ -19975,6 +19975,35 @@ Foundation, Inc., 51 Franklin St, Fifth Floor, Boston, MA 02110-1301, USA
1997519975
<example>quan més dur era l'atac, quan més en perill es troben aquells herois</example>
1997619976
<example>La major part són així, i unes quantes aixà.</example>
1997719977
</rule>
19978+
<rule default="temp_off">
19979+
<pattern>
19980+
<token><exception postag="VS.*" postag_regexp="yes"/></token>
19981+
<marker>
19982+
<token>contra</token>
19983+
</marker>
19984+
<token regexp="yes" skip="-1">més|menys|majors?|menors?|millors?|pitjors?<exception scope="next" regexp="yes">[;.]|quant?</exception></token>
19985+
<token regexp="yes">més|menys|majors?|menors?|millors?|pitjors?</token>
19986+
<token negate="yes">que</token>
19987+
</pattern>
19988+
<message>En aquesta construcció cal dir <suggestion>com</suggestion>.</message>
19989+
<example correction="Com"><marker>Contra</marker> més gran sigui, més bonic serà.</example>
19990+
<example correction="Com"><marker>Contra</marker> major difusió obtinguem, millor.</example>
19991+
</rule>
19992+
<rule default="temp_off">
19993+
<pattern>
19994+
<token regexp="yes" skip="-1">més|menys|majors?|menors?|millors?|pitjors?<exception scope="next" regexp="yes">[;.-–—]</exception></token>
19995+
<marker>
19996+
<token regexp="yes">contra<exception scope="previous" inflected="yes">un</exception></token>
19997+
</marker>
19998+
<token regexp="yes">més|menys|majors?|menors?|millors?|pitjors?</token>
19999+
</pattern>
20000+
<message>En aquesta construcció cal dir <suggestion>com</suggestion>.</message>
20001+
<example correction="com">Més bonic <marker>contra</marker> més gran sigui</example>
20002+
<example correction="com">Millor <marker>contra</marker> major difusió obtinguem.</example>
20003+
<example>més bonic com més gran sigui</example>
20004+
<example>quan més dur era l'atac, quan més en perill es troben aquells herois</example>
20005+
<example>La major part són així, i unes quantes aixà.</example>
20006+
</rule>
1997820007
</rulegroup>
1997920008
<rulegroup id="RECENT" name="recent + adjectiu">
1998020009
<url>http://esadir.cat/entrades/fitxa/node/recent</url>
@@ -21264,6 +21293,13 @@ Foundation, Inc., 51 Franklin St, Fifth Floor, Boston, MA 02110-1301, USA
2126421293
<token>si</token>
2126521294
<token postag="D.*" postag_regexp="yes"/>
2126621295
</antipattern>
21296+
<antipattern>
21297+
<token postag="SENT_START"/>
21298+
<token>que</token>
21299+
<token>si</token>
21300+
<token min="0" postag="_QM_OPEN"/>
21301+
<token postag="[DNA].*" postag_regexp="yes"/>
21302+
</antipattern>
2126721303
<antipattern>
2126821304
<token>si</token>
2126921305
<token>què</token>
@@ -22134,7 +22170,11 @@ Foundation, Inc., 51 Franklin St, Fifth Floor, Boston, MA 02110-1301, USA
2213422170
</rulegroup>
2213522171
</category>
2213622172
<category id="PREPOSITIONS" name="Preposicions" type="grammar">
22137-
<rule id="APROFUNDIR_SOBRE" name="aprofundir sobre -> en" default="temp_off">
22173+
<rule id="APROFUNDIR_SOBRE" name="aprofundir sobre -> en">
22174+
<antipattern>
22175+
<token><exception inflected="yes">haver</exception></token>
22176+
<token postag="V.P.*" postag_regexp="yes" inflected="yes">aprofundir</token>
22177+
</antipattern>
2213822178
<pattern>
2213922179
<token inflected="yes">aprofundir</token>
2214022180
<marker>
@@ -22143,6 +22183,7 @@ Foundation, Inc., 51 Franklin St, Fifth Floor, Boston, MA 02110-1301, USA
2214322183
</pattern>
2214422184
<message>La preposició adequada és <suggestion>en</suggestion>.</message>
2214522185
<example correction="en">Volíem aprofundir <marker>sobre</marker> alguns d'aquests temes.</example>
22186+
<example>Aquest és el seu treball més aprofundit sobre el tema.</example>
2214622187
</rule>
2214722188
<rulegroup id="GRAU_DE_GRAU_EN" name="grau de Matemàtiques -> grau en Matemàtiques">
2214822189
<rule>
@@ -25552,15 +25593,18 @@ Foundation, Inc., 51 Franklin St, Fifth Floor, Boston, MA 02110-1301, USA
2555225593
<example>sota zero</example>
2555325594
</rule>
2555425595
<rule id="SOTA_AL_SOTA_EL" name="*sota al/sota el">
25596+
<antipattern>
25597+
<token regexp="yes">per|a</token>
25598+
<token regexp="yes">sota|sobre</token>
25599+
</antipattern>
2555525600
<pattern>
25556-
<token><exception>per</exception></token>
2555725601
<marker>
2555825602
<token regexp="yes">sota|sobre</token>
2555925603
<token>a</token>
2556025604
<token regexp="yes">ls?</token>
2556125605
</marker>
2556225606
</pattern>
25563-
<message>¿Volíeu dir <suggestion><match no="2"/> e<match no="4"/></suggestion>?</message>
25607+
<message>¿Volíeu dir <suggestion><match no="1"/> e<match no="3"/></suggestion>?</message>
2556425608
<example correction="sota el"><marker>sota al</marker> pont</example>
2556525609
<example correction="sobre el"><marker>sobre al</marker> pont</example>
2556625610
<example>sota el pont</example>
@@ -45177,6 +45221,11 @@ Foundation, Inc., 51 Franklin St, Fifth Floor, Boston, MA 02110-1301, USA
4517745221
<token>.</token>
4517845222
<token>.</token>
4517945223
</antipattern>
45224+
<antipattern>
45225+
<token>el</token>
45226+
<token>.</token>
45227+
<token regexp="yes" spacebefore="no">[a-z]+</token>
45228+
</antipattern>
4518045229
<rule>
4518145230
<pattern>
4518245231
<token>que</token>
@@ -45187,6 +45236,7 @@ Foundation, Inc., 51 Franklin St, Fifth Floor, Boston, MA 02110-1301, USA
4518745236
</pattern>
4518845237
<message>Possible confusió. ¿Volíeu dir <suggestion>ell</suggestion>?</message>
4518945238
<example correction="ell">Has de ser més fort que <marker>el</marker>.</example>
45239+
<example>El .cat va tenir molt d'èxit.</example>
4519045240
</rule>
4519145241
</rulegroup>
4519245242
<rulegroup id="ELL_EL" name="*ell cotxe/el cotxe">
@@ -49313,7 +49363,7 @@ Foundation, Inc., 51 Franklin St, Fifth Floor, Boston, MA 02110-1301, USA
4931349363
<example correction="debades"><marker>de bades</marker></example>
4931449364
<example>debades</example>
4931549365
</rule>
49316-
<rulegroup id="AVANS" name="avanç/abans de">
49366+
<rulegroup id="AVANS" name="avanç/avans -> abans">
4931749367
<rule>
4931849368
<pattern>
4931949369
<marker>
@@ -49330,17 +49380,49 @@ Foundation, Inc., 51 Franklin St, Fifth Floor, Boston, MA 02110-1301, USA
4933049380
<rule>
4933149381
<pattern>
4933249382
<marker>
49333-
<token>avanç</token>
49383+
<token>avans</token>
49384+
</marker>
49385+
<token regexp="yes">de|d'|que</token>
49386+
</pattern>
49387+
<message>¿Volíeu dir <suggestion>abans</suggestion> (anterioritat en el temps)?</message>
49388+
<short>Possible confusió</short>
49389+
<example correction="Abans"><marker>Avans</marker> de tots els temps.</example>
49390+
</rule>
49391+
<rule>
49392+
<pattern>
49393+
<marker>
49394+
<token regexp="yes">avanç|avans</token>
4933449395
</marker>
4933549396
<token postag="CC"/>
4933649397
<token min="0">un</token>
49337-
<token>després</token>
49398+
<token regexp="yes">despr[éèe]s</token>
4933849399
</pattern>
4933949400
<message>¿Volíeu dir <suggestion>abans</suggestion>?</message>
4934049401
<short>Possible confusió</short>
4934149402
<example correction="Abans"><marker>Avanç</marker> o després ho farem.</example>
4934249403
<example correction="abans">Un <marker>avanç</marker> i un després.</example>
4934349404
</rule>
49405+
<rule>
49406+
<pattern>
49407+
<token>un</token>
49408+
<marker>
49409+
<token>avans</token>
49410+
</marker>
49411+
</pattern>
49412+
<message>¿Volíeu dir <suggestion>avanç</suggestion> (avançament) o <suggestion>abans</suggestion> (anterioritat en el temps)?</message>
49413+
<short>Possible confusió</short>
49414+
<example correction="avanç|abans">Un <marker>avans</marker> mèdic.</example>
49415+
</rule>
49416+
<rule>
49417+
<pattern>
49418+
<marker>
49419+
<token>avans</token>
49420+
</marker>
49421+
</pattern>
49422+
<message>¿Volíeu dir <suggestion>abans</suggestion> (anterioritat en el temps) o <suggestion>avanç</suggestion> (avançament)?</message>
49423+
<short>Possible confusió</short>
49424+
<example correction="Abans|Avanç"><marker>Avans</marker>!</example>
49425+
</rule>
4934449426
</rulegroup>
4934549427
<rule id="CERO" name="cero/zero">
4934649428
<pattern>

languagetool-language-modules/ca/src/main/resources/org/languagetool/rules/ca/replace_multiwords.txt

Lines changed: 2 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -852,4 +852,5 @@ coneixer'el|conèixer'el|conéixer'el=conèixer-lo|coneixe'l
852852
3Cat Info=3CatInfo S'escriu junt.
853853
cap-i-pota|cap i pota=capipota S'escriu junt.
854854
cap-i-potes|cap i potes=capipotes S'escriu junt.
855-
entre poc ni massa|ni entre poc ni massa=entre poc i massa
855+
entre poc ni massa|ni entre poc ni massa=entre poc i massa
856+
Marc Zuckerberg=Mark Zuckerberg

0 commit comments

Comments
 (0)