19,6 %
| 6. 10. 2016Už před dvanácti lety vyšel v časopise BM C Bioinformatics článek varující, že se v odborné literatuře objevují chyby v pojmenování genů, které následně ztěžují vyhledávání informací a způsobují zmatky (DOI: 10.1186/1471-2105-5-80). Na vině bylo automatické formátování v programu Microsoft Excel. Nový výzkum ukázal, že problém nezmizel. Naopak.
Analýza 3597 článků, k nimž autoři v doplňkových informacích poskytli seznamy genů zpracované v Excelu, odhalila, že chybná jména obsahuje téměř 20 % z nich. Jména některých genů Excel automaticky mění na datum nebo nesmyslnou numerickou hodnotu. Například gen Septin-2, běžně zkracovaný na SEPT2, program přepíše na 2-SEP a s příslušnou buňkou pracuje jako s datem 2. září. Další chyby vznikají při zápisu údajů z japonské (RIKEN) databáze cDNA klonů. Excel některé kódy změní na čísla s plovoucí řádovou čárkou, takže např. z 2310009E13 se stane 2.31E+13. Ani zpětné formátování buňky na text už původní název neobnoví.
Řešením je buď ručně předem nastavit formát buněk na text, nebo používat jiný program (ale např. tabulkový procesor, který je součástí Open Office, má stejný problém).
Ziemann M. et al., Genome Biology, DOI: 10.1186/s13059-016-1044-7
Ke stažení
- článek ve formátu pdf [253,64 kB]